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本 书 主要 论述 云 计算 开发 与 安全 的 基本 概念 、 思 想 、 方 法 和 实例 。 全 
书 主要 由 9 个 部 分 组 成 ， 内 容 涉及 相关 支撑 技术 、 云 计算 概念 和 开发 技 
术 、 云 的 应 用 、 云 计算 安全 、 云 计算 与 安全 的 教育 和 研究 等 相关 技术 及 其 
实例 、 实 验 系统 等 。 

本 书 是 一 本 不 可 多 得 的 将 云 计算 开发 与 安全 紧密 结合 的 图 书 。 通 过 风 
趣 且 智慧 的 语言 讲解 抽象 的 概念 ， 用 实例 和 插图 帮助 读者 理解 其 中 的 含 
义 ， 同 时 又 不 失 论述 的 严谨 性 ， 使 读者 易于 理解 和 掌握 。 

本 书 可 作为 高 等 院 校 信息 技术 相关 专业 的 本 科 生 和 研究 生 的 教材 ， 也 
适合 从 事 云 计算 设计 开发 、 安 全 维护 和 应 用 等 专业 技术 人 员 ， 使 用 云 的 企 
业 管理 人 员 ， 云 计算 与 安全 爱好 者 阅读 。 








































































































云 计 算是 一 种 新 计算 模型 ， 


vt 者 UF 


它 将 计算 


任务 分 布 在 大 量 


计算 机 构成 的 资源 池上 ， 





使 用 户 能 够 按 需 获取 计算 能 力 、 存 储 空间 和 信息 服务 等 。 有 人 将 这 种 模式 比喻 为 从 


单 台 发 电机 供电 模式 转向 了 电厂 集中 供电 # 


种 商品 进行 流通 
大 的 不 同 在 于 ， 


， 就 像 煤气 、 


它 是 通过 互联 网 进行 传输 
云 计 算 由 多 种 传统 技术 相互 融合 衍生 而 来 ， 涉 及 了 网 格 、 


NRK 。 
水 和 电 一 样 ， 
| 


o 





它 意 味 着 计算 能 力也 可 以 作为 一 


取 用 方便 ， 费 几 低 廉 ， 但 与 传统 商品 最 


分 布 式 、 并 行 及 效用 


等 多 种 计算 方法 ， 还 涉及 了 网 络 存储 、 虚 拟 化 及 负载 均衡 等 多 种 技术 ， 这 种 计算 服 


务 方式 ， 


以 其 宽带 互联 、 


次 


T JE S 


势 ， 在 各 行业 应 用 中 快速 兴起 


云 计 算 与 以 往 的 计 


弹性 配置 、 


按 需 服 务 和 按 量 收费 等 独特 优 








算 模式 安全 风险 不 同 。 云 计算 环境 下 ， 


信息 安全 问题 更 严 


重 、 更 突出 ， 核 心 的 问题 有 两 个 方面 。 首 先是 以 前 的 信息 系统 都 是 自己 建 的 ， 或 者 
托管 ， 在 安全 资源 和 基础 设备 方面 有 可 控 性 。 在 云 计算 的 环境 下 ， 是 由 服务 提供 商 


统管 IT 资源 和 基础 设施 ， 用 户 自己 无 法 管理 
构 共享 和 虚拟 动态 的 和 运行 环境 难以 控制 ， 
运行 环境 在 某 种 意义 上 是 无 序 的 。 

] 在 使 用 云 、 开 
发 的 书籍 琳琅 满目 ， 
全 。 关 于 云 计算 安全 的 
实际 情况 。 本 书 是 不 可 多 得 的 好 书 
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Ely 
云 计算 开 








安全 紧密 结合 、 
作 
1. 


里 





识 管理 


子 商 务 、 
安全 、 





个 重要 方面 。 

2. & T 8 
帮助 读者 到 
云 计算 开 














b, RA 





























为 云 计 算 开 
内 容 全 面 : 
、 分 布 式 计 
Web、 云 存储 管理 、 
供应 链 、 
语义 Web 安全 、 查 询 处 到 
安全 的 教育 和 研究 等 相关 技术 及 其 实验 系统 。 可 以 说 覆盖 了 云 计算 开 





EAE. 
Ef, 








Jh 


A 





访问 





工作 流 、 


书 中 
以 充实 和 


所 提 

















BU Exe xe, 


论 与 实践 相互 融合 的 书籍 。 
发 与 安全 的 优秀 之 作 ， 本 ; 
全 书 共 分 9 个 部 分 ， 内 容 涉及 相关 支撑 技术 〈 数 据 、 信 息 、 
云 计算 概念 和 开 

ape 
恶意 软件 与 内 部 威胁 检测 


数据 管理 、 








发 云 的 同时 ， 


但 是 它们 大 多 是 阅 


"RAD 


» 











控制 等 )、 
虚拟 机 监控 和 管理 








安全 及 信任 、 


ERE. 
云 计算 是 属于 动态 变化 的 计算 环境 ， 这 个 


岂 需 要 关注 它 的 安全 问题 。 


没有 考虑 到 云 计算 本 身 开 
也 解决 了 这 个 问题 ， 


第 二 个 问题 就 是 更 大 规模 蜡 


市 面 上 关于 
没有 涉及 安 
LR 


AT 
是 一 本 将 云 开 发 与 











发 理 








述 开 


论 和 技术 ， 











有 以 下 几 个 特点 : 


An 
发 技术 (服务 模型 、 语 义 
BAMA (社交 网 络 、 电 
等 )、 云 计算 安全 技术 (服务 











隐私 、 信 息 共 享 安 全 等 ) 、 云 计算 与 





及 的 原理 





BAO BE AS ah A R 
内 容 在 抽象 概念 和 实际 实现 之 间 
发 与 安全 中 的 基本 概念 与 算法 ， 提 供 了 相关 的 具体 实例 ， 


发 与 安全 的 各 








细 解 释 ， 并 配 有 很 多 实例 和 插 加 
架设 了 桥梁 。 本 书 讨论 了 
如 移动 云 、 多 媒 

I 














(0) 云 计算 开 必 与 安全 








体 云 、 基 于 云 的 社交 网 络 、 云 计算 实验 系统 、 面 向 安全 应 用 的 云 实验 系统 、 云 计算 





安全 实验 系统 等 。 为 读者 深入 浅 出 地 学 习 和 到 








础 ， 用 风趣 而 智慧 的 语言 讲解 许多 抽象 的 概念 。 

3. KAHM: 本 书 不 仅 加 入 了 快速 发 展 的 云 计 算 开 发 和 安全 的 新 概念 ， 还 将 作 
者 团队 在 云 计算 开发 与 安全 方面 实现 的 几 项 开创 性 工作 纳入 到 书 中 。 其 中 ; 第 一 个 
根据 OMT (Object Modeling Technique ， 对 象 建 模 技术 ) 模型 检查 OOAD (Object O- 

















riented Andysis and Design, 








E 解 云 计算 与 安全 提供 了 坚实 的 理论 基 























向 对 象 的 分 析 和 设计 ) 的 安全 性 。 开 发 了 一 个 安全 的 


对 象 模型 、 安 全 的 动态 模型 和 安全 的 功能 模型 。 第 一 个 提出 使 用 HDFS 中 的 平面 文 
件 来 提供 RDF 数据 的 存储 方案 ， 以 及 用 于 回答 SPARQL 查询 的 MapReduce 作业 确 
定性 算法 。 设计 和 实施 的 CAIS 是 第 一 个 支持 以 云 为 中 心 的 AIS 的 系统 。 

综合 来 看 ， 本 书 具 有 内 容 新 颖 、 全 面 、 实 用 性 指导 性 强 等 特点 ， 不 仅 是 从 事 云 
计算 开发 与 安全 等 专业 人 士 的 必 备 之 书 ， 同 时 也 是 高 等 院 校 相关 专业 师 生 教学 的 最 




















佳 教材 ， 由 更 地 希望 所 有 读者 都 能 从 本 





并 在 今后 的 相关 工作 中 游 妨 有余。 














区 中 充分 体会 到 云 计 算 开 发 与 安全 的 精 散 ， 











本 书 的 翻译 工作 由 林 果 园 总 体 组 织 负责 ， 审 校 全 书 译 稿 ， 佟 晶 晶 参加 了 本 书 的 
XSHEL HE RE, EWH, AH, RASH MTR 1~4 WME TH; 


























BU. Xn. XE 


BIR, FRSA] H8~12SHMELE; 
15 章 的 翻译 工作 ; EAD, BRE. RFF, ETA 





田 凯 等 参加 了 第 5 ~7 章 的 翻译 工作 ; RRA, 
可 望 、 


杨 飞 、 


朱 洁 、 周 娜 等 参加 了 第 13 ~ 











MAR, 2251315 


16 -21 章 的 翻译 工作 ; 许 尔 旭 、 马 栋 、 感 中 碍 等 参加 了 第 22 ~24 章 的 翻译 工作 ; 





韩 浩 、 








WAR, FE 





TA. BAR, EHUA €25-28 章 的 翻译 工作 ; Bn, FR, 
王 轩 等 参加 了 第 29 ~31 章 的 翻译 工作 ; 黄 琪 、 别 玉 玉 、 刘 凯 、 齐 乐 等 参加 了 第 
32-35 章 的 翻译 工作 ; wax, He, 


强 等 参加 了 附录 的 翻译 工作 。 


本 书 的 翻译 在 力求 忠实 于 原著 的 同时 ， 又 力求 符合 汉语 习惯 。 我 们 在 许多 云 计 
算 开发 与 安全 的 专业 术语 后 面 ， 注 明了 英文 原文 ， 这 一 方面 是 为 了 方便 读者 能 对 照 














从 而 节省 读者 宝贵 的 阅读 时 间 。 


Tmi 





理解 ， 为 今后 的 学 习 打 下 基础 ; 另 一 方面 ， 也 是 为 了 避免 项 


中 文 译 法 带 来 的 歧义 ， 

















在 本 书 的 翻译 过 程 中 得 到 了 世界 很 多 同行 的 帮助 ， 在 此 表示 深 深 的 谢意 ， 同 时 











也 非常 感谢 机 械 工业 出 版 社 的 编辑 1 














站 给 予 我 们 的 支持 ， 由 于 种 种 原因 书 中 难免 存在 
错误 和 不 妥 之 处 ， 尽 请 读者 批评 指正 。 











译 者 


db 
月 于 
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随 着 信息 系统 技术 的 不 断 发 展 ， 许 多 业务 领域 的 各 种 应 用 日 益 趋 于 计算 机 化 。 
在 许多 组 织 机 构 中 ， 数 据 已 经 成 为 其 关键 资源 。 有 效 地 访问 数据 、 共 享 数 据 以 及 从 





数据 中 提取 信息 并 利用 信息 已 经 成 为 迫切 的 需要 。 因 此 ， 








我 们 不 仅 需要 努力 整合 分 


散在 多 个 站 点 上 的 各 种 数据 源 ， 而 且 从 这 些 数 据 库 中 提取 信息 模式 和 趋势 也 显得 十 
分 重要 。 这 些 数据 源 可 以 是 由 数据 库 管 理 系统 所 管理 的 数据 库 ， 也 可 以 是 来 自 于 多 











种 数据 源 的 在 数据 仓库 中 存储 的 数据 。 
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世纪 90 年 代 中 期 ， 随 着 万 维 网 (World Wide Web, WWW) 的 发 展 ， 对 数 
据 、 信 息 和 知识 的 有 效 管理 产生 了 更 大 需求 。 在 这 个 阶段 ， 消 费 者 书籍 销售 商 的 概 
念 已 通过 网 络 进行 了 数字 化 体现 。 按 照 这 种 方式 ， 许 多 服务 有 了 网 络 的 支持 ， 消 费 
者 可 以 通过 服务 提供 商 的 网 站 请 求 服务 ， 而 服务 提供 商 提供 被 请 求 的 服务 。 这 种 服 
务 可 以 是 从 航空 公司 预订 机 票 或 者 是 从 书籍 销售 商 那 里 购买 一 本 书 ， 这 种 由 网 络 支 
持 的 服务 被 称 为 网 络 服务 。 需 要 注意 的 是 ， 这 种 服务 不 一 定 必须 通过 网 络 提供 。 消 




















费 者 可 以 向 服务 提供 商 发 送 电 子 邮件 请 求 服务 。 这 种 服务 就 是 计算 机 支持 的 服务 ， 


由 计算 机 支持 的 服务 大 部 分 工作 都 集中 在 网 络 服务 上 。 
这 种 服务 模式 已 经 演变 成 提供 计算 服务 的 基础 设施 、 











软件 、 数 据 库 以 及 各 种 应 





用 。 例 如 ， 像 从 电力 公司 获得 供电 服务 一 样 ， 我 们 也 可 以 从 服务 提供 商 那里 获得 计 
算 服 务 ， 这 种 能 力 就 产生 了 云 计 算 的 概念 。 正 如 美国 国家 标准 与 技术 研究 院 对 云 计 
算 的 定义 : 云 计 算是 实现 无 处 不 在 、 方 便 、 按 需 网 络 访问 共享 的 可 配置 计算 资源 池 
(如 网 络 、 服 务 器 、 存 储 、 应 用 程序 和 服务 ) 的 模型 ， 可 以 通过 最 少 的 管理 努力 或 























服务 提供 商 的 交互 来 快速 地 提供 和 发 布 。 

















在 过 去 5 年 中 ， 云 计算 的 发 展 迅 速 ， 目 前 已 经 有 好 几 家 公司 提供 基础 设施 软 





件 、 应 用 程序 和 计算 平台 作为 服务 。 











随 着 对 数据 和 信息 管理 需求 的 不 断 增加 ， 维 护 数据 库 、 应 用 程序 和 信息 系统 的 




















XB oce oq 











， 因 此 需要 有 效 的 机 制 来 保护 云 计算 安全 。 
本 书 将 回顾 云 计 算 的 发 展 情况 ， 并 讨论 云 计算 安全 











全 性 至 关 重 要 ， 因 此 必须 保护 数据 和 信息 免 缕 未 经 授权 的 访问 以 及 恶意 破坏 。 随 
云 计 算 的 出 现 ， 由 于 云 数据 通常 是 由 第 三 方 管理 ， 所 以 保护 数据 和 信息 尤为 重 


F 的 概念 、 问 题 和 挑战 。 此 


外 ， 还 将 讨论 我 们 在 得 克 萨 斯 大 学 达拉斯 分 校 (The University of Texas at Dallas, 

















UTD) 开发 的 在 云 计算 和 云 计 算 安 全 方面 的 实验 系统 、 基 础 设施 和 教育 项 目 。 
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(0) 去 计算 开 必 与 安全 








本 书 组 织 结构 


本 书 共 分 为 9 个 部 分 ,每 个 部 分 分 别 描述 和 云 计 算 开 发 与 


安全 相关 的 一 些 方 


面 。 本 书 重 点 将 是 云 计算 查询 处 理 以 及 周边 安全 问题 。 此 外 ， 本 书 也 将 讨论 利用 云 


计算 的 应 用 安全 性 ， 例 如 恶意 软件 检测 、 信 息 共享 安全 、 内 部 威胁 检测 等 。 


括 第 2 章 所 讨论 的 计算 系统 的 演进 ， 











本 书 第 1 章 为 引言 。 








第 一 部 分 由 3 章 (第 2 ~4 章 ) 组 成 ,主要 介绍 云 计 算 的 支撑 技术 。 这 部 分 包 





信息 以 及 知识 的 管理 技术 。 
第 二 部 分 由 3 3X (第 5~7 章 ) 组 成 ,讨论 服务 和 安全 服务 技术 中 的 概念 。 其 


+ #5 章 讨论 SOA (Service Oriented Architecture， 面 向 月 
务 ， 面 向 服务 的 设计 与 分 析 以 及 安全 服务 。 第 6 章 将 讨论 语 
问题 ， 在 第 7 章 将 讨论 专用 的 Web 服务 ， 如 信息 和 知识 管 下 


首先 将 在 第 13 eibi d 
网 络 ， 最 后 在 第 15 章 讨论 云 计算 中 的 本 体 管理 。 


的 安全 性 。 第 17 章 讨 论 云 计 算 安 全 的 主要 功 
z 








第 3 章 讨论 的 安全 技术 ， 第 4 章 讨论 的 数据 、 


民 务 的 架构 ) 和 Web 服 
义 Web 服务 和 相关 安全 
服务 。 


第 三 部 分 由 5 章 (第 8~12 章 ) 组 成 ， 将 讨论 云 计算 中 的 核心 课题 。 在 第 8 章 
中 ， 将 讨论 云 计 算 的 基本 概念 以 及 我 们 实现 的 一 个 云 计 算 架 构 。 在 第 9 章 ， 将 对 云 
计算 功能 进行 讨论 ， 包 括 虚 拟 化 、 数 据 存储 管理 、 数 据 管 理 。 接 下 来 将 用 整个 第 10 
章 来 介绍 云 数据 管理 ， 针 对 云 数据 管理 开发 了 许多 原型 。 第 11 章 讨 论 应 用 程序 。 
第 12 章 讨论 各 种 云 产 品 和 安全 提供 商 。 


























第 四 部 分 由 3 X (13-15 €) 组 成 ， 讨 论 在 实验 云 计算 





第 五 部 分 由 6 章 (第 16~21 章 ) 组 成 ， 讨 论 云 计算 安全 。 








系统 上 开发 的 原型 。 


E 系统 原型 ， 其 次 将 在 第 14 章 讨论 云 计 算 中 的 社交 


第 16 章 讨 论 云 计 算 


能 ， 例 如 安全 虚拟 化 、 存 储 和 数据 管 
理 以 及 云 取证 。 由 于 我 们 大 部 分 工作 都 是 集中 在 云 数 据 安全 管理 





时 上， 所 以 将 用 整个 





第 18 章 来 讨论 这 个 课题 。 第 19 章 给 出 了 云 计算 安全 指南 。 第 20 章 讨论 安全 作为 
服务 的 概念 。 第 21 章 讨论 关于 云 计算 安全 的 各 种 标准 和 产品 。 


第 六 部 分 由 3 X (第 22 ~24 章 ) 组 成 ， 讨 论 在 云 计算 上 开发 系统 的 安全 性 。 
第 22 章 讨 论 的 主题 是 使 用 关系 数据 的 安全 云 查询 处 理 系 统 ， 第 23 章 将 讨论 使 用 语 




















义 Web 数据 的 查询 处 理 安 全 ， 第 24 章 将 讨论 亚马逊 网 络 服务 和 
第 七 部 分 由 4 章 (第 25 ~28 €) 组 成 ,介绍 云 计算 在 安全 应 用 中 的 使 用 。 和 第 
25 章 介绍 使 用 云 计算 对 恶意 软件 检测 ， 第 26 章 将 讨论 基于 云 的 内 部 威胁 检测 ， 第 
27 章 讨论 基于 云 计算 的 信息 共享 保障 ， 第 28 章 讨 论 基 于 语义 云 的 信息 共享 ， 我 们 


将 语义 云 定义 为 使 用 语义 Web 技术 的 云 。 















































信息 集成 的 安全 性 。 


第 八 部 分 由 3 章 (第 29 ~31 章 ) 组 成 ,描述 了 关于 开发 可 信赖 云 的 思路 。 第 
29 章 将 讨论 云 服 务 的 信任 管理 ， 第 30 章 对 云 服务 的 隐私 问题 进 
对 云 服务 的 完整 性 和 数据 质量 进行 讨论 。 











第 九 部 分 由 4 章 (第 32~35 €) 组 成 ， 讨 论 了 为 云 计 算 安 
VI 


行 讨 论 ， 第 31 BK 











全 开发 的 基础 设施 、 
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原 书 前 








教育 项 目 和 研究 计划 。 第 32 章 将 介绍 建立 的 云 计 算 安全 基础 设施 ， 第 33 章 讨 论 关 
于 这 一 主题 的 教育 项 目 ， 第 34 章 讨 论 了 影响 本 书 大 部 分 讨论 的 协作 研究 项 目 。 第 
35 章 对 本 书 进行 了 总 结 ， 并 讨论 了 云 计算 安全 的 未 来 发 展 方向 。 
每 一 部 分 的 内 容 都 是 以 简介 开始 ， 并 以 总 结 结尾 。 而 且 ， 从 第 2 ~34 章 每 一 章 
都 是 以 概述 开始 ， 并 以 总 结 和 对 未 来 工作 的 展望 结尾 。 此 外 ， 在 每 一 章 的 结尾 均 提 
供 了 相关 参考 文献 。 我 们 给 出 了 相关 背景 知识 的 4 个 附录 。 附 录 A 是 对 数据 管理 的 
概述 ， 并 讨论 了 我 们 所 撰写 的 书目 之 间 的 关系 ， 这 也 是 我 们 所 有 书籍 的 标准 做 法 。 
附录 B 中 ,讨论 了 数据 挖掘 技术 ， 因 为 我 们 使 用 这 种 技术 用 于 云 数据 管理 和 基于 云 
的 恶意 软件 检测 。 附 录 C 讨论 了 与 提出 的 安全 云 数据 管理 工作 相关 的 安全 数据 管理 
技术 。 最 后 ， 附 录 D 讨论 了 在 信息 共享 安全 方面 所 做 的 工作 ， 它 与 我 们 对 基于 云 计 
算 的 信息 共享 安全 相关 。 

编者 尽力 从 各 类 书籍 、 期 刊 、 杂 志 、 会 议和 研讨 会 中 获得 参考 。 尽 管 编者 试 着 
不 给 出 统一 资源 定位 符 (Uniform Resource Locator, URL) 作为 参考 ， 但 是 发 现 这 
样 几乎 不 可 能 完成 一 篇 文章 ， 特 别 是 在 关于 云 计算 和 网 络 方面 。 许 多 网 址 包含 很 多 
优质 的 参考 资料 ， 但 其 中 一 些 网 址 在 本 书 出 版 之 前 可 能 无 法 使 用 。 因 此 ， 编 者 建议 
读者 应 经 常 检 查 网 页 以 获取 关于 云 计 算 和 云 计 算 安 全 的 最 新 信息 。 
数据 、 信 息 和 知识 

通常 ， 数 据 管 理 包 括 数 据 库 管理 、 数 据 互 操作 性 、 数 据 迁 移 、 数 据 仓 储 和 数 ] 
挖 据 。 例 如 ， 为 了 提取 信息 和 模式 以 及 趋势 ， 必 须 对 网 络 上 的 数据 进行 管理 和 和 
据 。 数 据 可 以 存储 在 文件 、 关 系数 据 库 或 其 他 类 型 的 数据 库 中 ,例如 多 媒体 数 1 
库 。 数 据 可 以 是 结构 化 的 ， 也 可 以 是 非 结 构 化 的 。 本 书 将 多 次 使 用 术语 数据 、 数 j 
管理 、 数 据 库 系 统 和 数据 库 管 理 系统 。 我 们 在 附录 中 详细 说 明了 这 些 术语 。 我 们 ; 
数据 管理 系统 定义 为 管理 数据 的 系统 ， 即 从 数据 中 提取 有 意义 的 信息 并 加 以 利用 
因此 ， 数 据 管理 系统 包括 数据 库 系 统 、 数 据 仓库 以 及 数据 挖掘 系统 。 数 据 可 以 是 关 
系数 据 库 中 的 结构 化 数据 ， 也 可 以 是 非 结 构 化 的 数据 ， 例 如 文本 、 语 音 、 图 像 和 视 
频 等 。 

过 去 有 很 多 关于 区 分 数据 、 信 息 和 知识 的 讨论 。 在 我 们 之 前 一 些 关 于 数据 管理 
和 挖掘 的 书籍 中 ， 我 们 没有 试图 区 分 这 些 术语 ， 我 们 只 是 简单 地 认为 ， 数 据 可 能 只 
是 一 些 位 和 字 节 ， 或 者 它 可 以 向 用 户 传达 一 些 有 意义 的 信息 。 然 而 ， 随 着 网 络 的 出 
现 ， 以 及 对 数据 、 信 息 和 知识 管理 作为 不 同 的 独立 领域 进行 说 明 的 需求 越 来 越 大 ， 
在 本 书 中 ， 对 数据 、 信 息 和 知识 通过 采取 不 同 的 方法 尽 可 能 来 区 分 这 些 术语 。 我 们 
认为 数据 通常 是 一 些 数 值 ， 如 数字 、 整 数 和 字符 串 。 一 些 含义 或 语义 与 数据 相关 联 
时 就 会 产生 信息 ， 例 如 约翰 的 工资 是 2 万 美元 。 知 识 是 通过 阅读 和 学 习 获 得 的 ， 从 
而 了 解数 据 和 信息 并 采取 进一步 的 行为 。 也 就 是 说 ， 当 人 们 消除 了 对 数据 和 信息 的 
不 能 理解 的 内 容 时 ， 数 据 和 信息 就 转化 为 知识 。 应 该 注意 的 是 ， 对 数据 、 信 息 和 知 
识 做 到 严格 定义 是 相当 困难 的 ， 有 时 我 们 也 会 互 换 使 用 这 些 术语 。 在 附录 中 讨论 的 
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(9 ) 去 计算 开发 与 安全 


数据 管理 相关 内 容 有 助 于 阐明 一 些 差异 。 为 了 与 我 们 之 前 书籍 中 的 术语 一 致 ， 我 们 
还 将 区 分 数据 库 系 统 和 数据 库 管理 系统 。 数 据 库 管理 系统 是 管理 包含 持久 性 数据 的 
数据 库 的 软件 ， 而 数据 库 系 统 包含 数据 库 和 数据 库 管 理 系统 。 


结语 


























写作 本 书 的 目的 是 探索 云 计算 的 安全 问题 ， 并 讨论 其 应 用 ， 同 时 也 对 云 计算 中 
的 一 些 概念 进行 了 讨论 。 我 们 讨论 了 安全 的 Web 服务 ， 因 为 它们 是 云 计算 的 核心 。 
除了 一 些 概念 和 技术 ， 还 介绍 了 我 们 在 UTD 设计 和 开发 的 云 计 算 实验 系统 和 云 计 
算 安全 实验 系统 。 我 们 已 经 使 用 了 这 本 书 中 的 材料 ， 以 及 每 章 中 列 出 的 众多 参考 文 
Wk, XE UTD 开设 了 Web 安全 服务 和 云 计 算 方 面 的 研究 生 课程 。 书 中 还 提供 了 研究 
生 开 发 的 几 个 实验 系统 。 

值得 注意 的 是 ， 云 计算 及 安全 领域 正在 随 着 新 兴 标 准 的 出 现 不 断 迅速 扩大 。 因 
此 ， 读 者 需要 跟 上 云 计 算 和 云 计 算 安 全 的 原型 、 产 品 、 工 具 和 标准 的 发 展 ， 这 显得 
很 重要 。 安 全 不 能 是 在 事后 考虑 的 事情 。 所 以 ， 在 云 计算 技术 开发 过 程 中 ， 在 一 开 
始 就 要 把 安全 性 考虑 进去 是 非常 重要 的 。 
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1.1 关于 本 书 


19 世纪 ， 查 尔 斯 巴 贝 奇 发 明了 机 械 计算 机 器 。20 世纪 30 年代 ， 图 灵 证 明了 著名 
的 停机 问题 是 无 法 解决 的 。 在 随后 的 20 世纪 40 年 代 ， 汉 . 诺 依 曼 计算 机 的 产生 为 现代 
电子 计算 机 奠定 了 基础 。 紧 接着 是 50 年 代 和 60 年 代 的 大 型 计算 机 、70 年 代 的 小 型 计算 
机 、80 年 代 的 个 人 计算 机 、90 年 代 的 移动 /无 线 计 算 机 和 21 世纪 初 的 云 计 算 。 同 时 ， 
计算 模式 也 从 单 处 理 器 发 展 到 多 处 理 器 ， 再 到 分 布 式 和 并 行 处 理 。 现 在 ， 我 们 已 经 有 了 
在 单 芯 片上 集成 多 处 理 器 的 多 核 架 构 。 

在 过 去 的 十 年 中 ， 随 着 万 维 网 (Word Wide Web, WWW) 的 发 展 ， 消 费 者 服务 提 
供 商 的 概念 已 经 通过 网 络 进行 了 数字 化 体现 。 通 过 这 种 方式 ， 我 们 现在 拥有 了 Web x 
持 的 服务 。 消 费 者 可 以 通过 服务 提供 商 提供 的 网 站 来 请 求 服务 ， 而 服务 提供 商 提 供 所 请 
求 的 服务 。 例 如 可 以 通过 这 种 服务 预订 机 票 或 者 网 购 一 本 书 。 这 种 Web 支持 的 服务 被 
称 为 网 络 服务 。 支 持 服 务实 现 的 信息 系统 是 面向 服务 的 信息 系统 。 一 个 提供 支持 服务 实 
现 的 架构 被 称 为 面向 服务 的 架构 (SOA) 。 

经 由 云 计 算 和 面向 服务 计算 的 集成 ， 现 在 可 以 通过 云 来 提供 服务 。 这 些 服务 不 仅 是 
域 服务 ， 如 预订 旅游 或 酒店 等 ， 而 且 还 包括 通过 云端 进行 整个 计算 ， 并 将 其 作为 服务 提 
供给 客户 。 那 么 什么 是 云 ? 美国 国家 标准 与 技术 研究 院 给 出 的 定义 如 下 : 

云 计算 是 实现 无 处 不 在 、 方 便 、 按 需 网 络 访问 共享 的 可 配置 计算 资源 池 (如 网 络 、 
服务 器 、 存 储 、 应 用 程序 和 服务 ) 的 模型 ， 可 以 通过 最 少 的 管理 努力 或 服务 提供 商 的 
交互 来 快速 地 提供 和 发 布 。 

本 章 详细 介绍 本 书 的 组 织 结构 。 本 章 组 织 如 下 : 01.2 节 论 述 用 于 构建 和 保证 云 安全 
的 支撑 技术 。1. 3 节 论 述 云 计算 安全 的 核心 一 一 服务 安全 技术 。1.4 节 论 述 云 计算 的 概 
念 。1.5 节 论 述 我 们 已 开发 的 云 实 验 系统 。1.6 节 论 述 云 安 全 技术 。1.7 节 论 述 我 们 已 
开发 的 云 安全 实验 系统 。1. 8 节 论 述 利 用 云 来 保障 安全 应 用 的 实验 系统 。1.9 节 论 述 一 
些 构建 可 信赖 的 云 的 方向 ， 包 括 机 密 性 、 信 和 任性、 隐私 性 和 完整 性 。 最 后 ,在 1.10 5 
中 论述 我 们 在 构建 云 安全 基础 架构 、 教 育 项 目 以 及 我 们 在 云 安 全 上 的 协作 活动 方面 等 做 
出 的 努力 。1. 11 节 介 绍 本 书 的 组 织 结构 。 我 们 在 1. 12 节 中 提出 用 到 的 资源 。 需 要 注意 
的 是 ，1. 2 ~1.10 节 的 内 容 将 在 本 书 第 一 ~ 九 部 分 中 进行 详细 阐述 。 图 1. 1 简要 说 明了 
本 章 内 容 。 
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图 1.1 构建 和 确保 云 安全 


1.2 支撑 技术 


本 节 将 详 述 3 种 云 的 支撑 技术 。 首 先 ， 将 论述 计算 系统 的 演变 。 然 后 ， 将 论述 安全 
技术 。 最 后 ， 将 论述 数据 、 信 息 和 
知识 管理 技术 。 本 书 第 二 部 分 将 论 
述 支 撑 技 术 的 更 多 细节 。 图 1.2 说 
明了 支撑 技术 。 


1.2.1 从 主机 到 云 

















如 1.1 节 所 述 ， 计算 系统 在 过 计算 系 数据 、 信 息 与 
去 的 70 年 里 持续 发 展 。20 世纪 30 | 。 统 的 演变 MED 
年 代 的 结果 不 可 解 性 与 40 年代 
汉 - 诺 依 曼 计算 机 为 现代 计算 机 的 图 1.2 支撑 技术 


出 现 铺 平 了 道路 。 我 们 看 到 50 年 
代 和 60 年 代 的 大 型 计算 机 、70 年 代 的 小 型 计算 机 和 80 年 代 的 个 人 计算 机 的 快速 发 展 。 
随 着 网 络 的 发 展 ， 在 20 世纪 70 年 代 和 SO 年 代 产 生 了 分 布 式 系统 。 

随 着 WWW ( 万维网) 的 到 来 ， 新 一 代 计 算 技术 开始 于 20 世纪 90 年 代 。 这 导致 了 
语义 Web 与 计算 服务 技术 产生 。 在 21 世纪 初出 现 了 社会 计算 、 移 动 计算 和 云 计算 。 我 
们 预计 这 3 种 计算 技术 将 在 未 来 集成 为 一 体 并 拥有 处 理 大 量 数据 的 能 力 ， 这 被 称 为 “大 
数据 ” 。 也 就 是 说 ， 计 算 的 未 来 将 是 快速 处 理 大 量 数据 ， 并 通过 手机 向 用 户 提 供 有 用 的 
信息 。 本 书 将 重点 介绍 通过 云 服务 提供 的 数据 管理 、 信 息 管理 和 社交 网 络 的 一 些 发 展 。 
有 关 计 算 演 进 的 更 多 细节 将 在 本 书 第 2 章 中 给 出 。 


1.2.2 安全 技术 


安全 的 云 计算 系统 本 质 上 是 云 计算 技术 和 安全 技术 的 结合 。 安 全 技术 将 被 纳入 可 靠 
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的 信息 系统 。 这 些 系统 由 许多 方面 组 成 ， 包 括 可 信赖 的 系统 、 数 据 安全 和 信息 系统 ， 以 
及 保密 、 隐 私 和 信任 管理 方面 ， 这 些 都 将 在 本 书 中 提 到 。 

可 信赖 的 系统 是 安全 可 靠 的 系统 。 至 于 可 靠 的 系统 ， 我 们 的 意思 是 说 具有 高 完整 
性 、 容 错 性 和 满足 实时 限制 的 系统 。 可 信赖 的 系统 包括 数据 管理 系统 、 信 息 管理 系统 和 
安全 的 网 络 。 要 使 一 个 系统 可 靠 ， 它 必须 安全 、 容 错 、 满 足 按 时 调度 ， 并 管理 高 质量 的 
数据 。 然 而 ， 将 这 些 功 能 集成 到 一 个 系统 意味 着 系统 必须 满足 处 理 冲突 的 要 求 。 例 如 ， 
如 果 系 统 对 所 有 的 访问 进行 控制 检查 ， 其 中 可 能 会 产生 超时 现象 。 要 设计 可 信赖 的 系 
统 ， 最 重要 的 是 所 设计 系统 的 灵活 性 。 例 如 ， 在 某 些 情况 下 ， 满 足 所 有 的 时 限 性 约束 可 
能 很 重要 ， 而 在 某 些 其 他 情况 下 ， 满 足 所 有 安全 约束 可 能 至 关 重 要 。 

可 信赖 的 系统 有 时 被 称 为 可 靠 的 系统 ， 而 在 某 些 其 他 情况 下 ， 可 靠 性 被 认为 是 可 信 
赖 的 一 部 分 。 例 如 ， 在 一 些 论文 中 ， 可 靠 性 主要 包括 容错 系统 ， 当 将 容错 与 安全 集成 在 
一 起 时 ， 就 可 以 得 到 值得 信赖 的 系统 。 不 管 如 何 定 义 ， 对 于 要 在 操作 环境 中 部 署 的 系 
统 ， 特 别 是 对 于 命令 和 控制 以 及 其 他 关键 应 用 程序 ， 我 们 需要 端 到 端的 可 靠 性 和 安全 
性 。 对 于 某 些 应 用 程序 ， 我们 不 仅 需 要 安全 性 和 保密 性 ， 还 需要 确保 个 人 的 隐私 安全 。 
因此 ， 隐 私 性 也 是 可 信赖 系统 的 男 一 个 特点 。 

为 了 使 系统 可 靠 /值得 信赖 ， 我 们 需要 保证 其 端 到 端的 可 靠 性 或 可 信 性 。 需 要 注意 
的 是 ， 组 成 系统 的 组 件 包括 网 络 、 操 作 系 统 、 中 间 件 和 基础 设施 、 数 据 管理 器 和 应 用 程 
序 。 我 们 需要 所 有 的 组 件 是 可 靠 的 或 可 信赖 的 。 然 而 在 最 近 ， 安 全 系统 的 目标 是 通过 不 
可 靠 的 组 件 构建 可 信赖 的 系统 。 假 设 组 件 可 能 来 自 多 个 提供 商 ， 其 至 来 自 多 个 国家 ， 那 
么 信任 所 有 组 件 是 不 可 行 的 。 因 此 ， 这 里 的 挑战 在 于 如 何 由 不 可 靠 的 组 件 构 建 可 信赖 的 
系统 ， 并 确保 任务 的 正确 执行 。 

安全 服务 的 安全 技术 包括 数据 安全 服务 、 信 息 和 知识 管理 服务 。 安 全 数据 和 信息 系 
统 包括 数据 库 系统 安全 ( 如 关系 数据 库 系统 安全 ) 和 信息 系统 安全 (如 多 媒体 信息 系 
统 安全 和 数字 图 书馆 安全 ) 。 

可 信赖 的 信息 系统 的 重点 在 于 保密 性 、 隐 私 性 和 可 信任 性 的 概念 。 保 密 性 是 指 网 站 
或 服务 器 只 对 授权 的 个 人 发 送 有 关 的 信息 。 隐 私 性 是 指 个 人 决定 发 送 其 有 关 信息 。 可 信 
任性 是 关于 可 以 对 各 个 人 (例如, 个人、 组织 ) 及 其 产生 的 信息 有 多 少 价 值 。 我 们 将 
在 第 3 章 论 述 安全 技术 。 


1.2.3 数据 、 信 息 和 知识 管理 


云 数 据 管理 是 本 书 的 重点 ， 由 于 我 们 专注 于 这 一 领域 ， 所 以 认为 数据 、 信 息 和 知识 
管理 是 云 的 关键 支撑 技术 。 应 该 注意 的 是 ， 包 括 操作 系统 、 网 络 和 中 间 件 在 内 的 几 种 计 
算 技术 也 是 支撑 技术 。 

本 书 重点 介绍 的 数据 管理 技术 ， 包 括 查询 处 理 、 事 务 管理 、 存 储 管理 以 及 数据 挖掘 
和 语义 Web 等 信息 管理 技术 。 此 外 ， 我 们 将 专注 于 在 云端 托管 应 用 程序 ， 如 社交 网 络 。 
知识 管理 也 是 一 种 可 以 通过 云 提供 的 技术 。 本 书 将 在 第 4 章 论 述 数据 、 信 息 和 知识 管理 
的 各 个 方面 。 
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1.3 服务 安全 技术 


服务 是 云 计 算 的 核心 。 这 是 因为 云 提供 了 一 系列 的 服务 (包括 平台 即 服务 、 软 件 
即 服务 、 数 据 即 服务 、 基 础 设施 即 服 
务 ) 给 它们 的 客户 。 因 此 ， 我 们 将 把 第 服务 计算 与 安全 
二 部 分 用 于 介绍 服务 和 服务 安全 技术 。 
本 书 将 论述 的 各 种 类 型 的 服务 如 图 1.3 






































所 示 。 

服务 计算 与 语义 Web 专用 Web 服 

1.3.1 服务 安全 技术 | 
服务 的 基本 技术 由 多 个 要 点 组 成 ， 图 1.3 服务 类 型 


包括 面向 服务 的 概念 、SOA 和 网 络 服 

务 、 语 义 Web 服务 和 面向 服务 的 分 析 与 设计 (SOAD ) 。 面 向 服务 的 计算 由 面向 对 象 的 
计算 演变 而 来 。 在 面向 对 象 的 计算 中 ， 世 界 被 看 作 是 对 象 的 集合 ， 这 些 对象 通 过 消息 相 
互通 信 。 同 样 ， 在 面向 服务 的 计算 中 ， 世 界 被 看 作 是 服务 的 集合 。 因 此 ， 服 务 就 可 以 像 
消费 者 那样 通过 信息 交流 。 虽 然 众多 的 面向 对 象 编程 ( Object - Oriented Programming, 
OOP) 语言 已 被 开发 ， 包 括 Smalltalk, Java 和 C + + ， 但 现在 仍 没 有 面向 服务 计算 的 计 
算 语 言 。 然 而 ， 我 们 可 以 通过 网 络 数据 包 和 对 象 来 实现 服务 。 

SOA 是 面向 服务 计算 的 基础 架构 。 这 种 架构 指定 了 服务 和 服务 之 间 的 通信 。Web 
服务 是 通过 网 络 涉及 的 服务 。 目 前 ，Web 服务 是 面向 服务 计算 最 流行 的 表达 方式 ,但 
应 该 指出 的 是 ，Web 服务 只 是 面向 服务 的 计算 的 一 个 子 集 。 

SOAD 遵循 面向 对 象 的 分 析 和 设计 (OOAD) 的 规范 。 值 得 注意 的 是 ，00AD 就 如 
统一 建 模 语言 (Unified Modeling Language, UML) 一 样 ， 已 经 过 多 年 的 研究 和 实验 发 
展 。 这 里 的 想法 是 开发 一 种 方法 为 围绕 对 象 概念 的 应 用 程序 、 数 据 和 活动 建 模 。 同 样 ， 
关于 SOAD ， 我 们 的 想法 是 建立 模型 ， 进 行 分 析 ， 并 寻找 服务 和 服务 之 间 交 互 的 原理 。 
通常 ，OOAD 被 视 作 SOA 的 先决 条 件 。 尽 管 对 于 OOP 来 说 OOAD 是 不 可 少 的 ， 但 为 了 
达成 简单 对 象 访问 协议 (Simple Object Access Protocol, SOAP), RIIA Z SOAD, Æ% 
书 的 第 二 部 分 ， 将 详细 介绍 所 有 的 基本 服务 。 

对 于 许多 应 用 程序 ， 云 计算 提供 的 服务 必须 是 安全 的 。 也 就 是 说 ， 不 仅 要 保证 数据 
存储 和 管理 的 安全 ， 同 时 也 要 保证 对 数据 的 处 理 也 是 安全 的 。 因 此 ， 对 于 云 计 算 安全 来 
WF, Web 服务 安全 是 必 不 可 少 的 。 现 在 ， 基 于 SOA 的 Web 服务 由 3 个 概念 组 成 : 消费 
者 、 服 务 提 供 商 和 目录 。 [这 个 目录 被 称 为 UDDI (通用 描述 、 发 现 和 集成 ，Universal 
Description, Discovery and Integration) ] 。 服务 提供 商 将 在 UDDI 上 发 布 其 服务 ， 消 费 者 将 
在 UDDI 上 查询 服务 。UDDI 将 给 消费 者 提供 服务 提供 商 的 地 址 。 然 后 消费 者 调用 服务 。 
通过 被 称 为 SOAP 的 同步 对 象 访问 协议 (Synchronized Object Access Protocol, SOAP) 的 
消息 进行 通信 ， 该 消息 基于 可 扩展 标记 语言 (Extensible Markup Language, XML), M2 
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Rix 5l Sy. 
全 角度 来 看 ， 我 们 需要 将 安全 性 纳入 此 通信 。Web 服务 1.0 对 服务 安全 提供 了 支持 。 在 
最 近 的 Web 服务 2. 0 中 ，SOA 有 了 更 加 先进 的 概念 。 

在 我 们 设计 基于 服务 的 安全 应 用 之 前 ， 需 要 应 用 SOAD 方法 。 然 而 ，SOAD 就 如 同 
被 定义 的 那样 ， 不 足以 用 于 安全 应 用 。 在 本 书 中 ,将 论述 我 们 为 安全 应 用 而 拓展 SOAD 
的 工作 。 我 们 将 基于 在 20 世纪 90 年 代 进 行 的 工作 ， 扩 展 对 象 建 模 技术 用 于 安全 应 用 。 

已 经 开发 了 针对 服务 的 多 项 标准 ， 安 全 的 服务 主要 基于 Web 服务 已 经 开发 了 多 种 
标准 。 例 如 ， 万 维 网 联盟 (Word Wide Web Consortium, W3C) 已 经 开发 了 XML 和 
XML 安全 标准 ， 这 是 Web 服务 框架 的 重要 组 成 部 分 。 此 外 ,诸如 WSDL ( 网络 服 务 描 
述 语言 Web Services Description Language) 等 标准 已 经 被 制定 ， 这 是 为 了 指定 用 于 消息 
通信 的 服务 和 SOAP。XML 安全 标准 包括 XML 加 密 和 XML 密 钥 管理 ， 这 确保 了 机 密 性 
和 完整 性 。 

指定 安全 策略 的 更 高 级 标准 包括 OASIS. (结构 化 信息 标准 促进 组 织 ，Organization 
for the Advancement of Structured Information Standards) 以 及 W3C 提出 的 标准 。 例 如 ， 安 
全 声明 标记 语言 (Security Assertions Markup Language, SAML) 为 安全 性 声明 指定 了 一 
种 语言 。 可 扩展 访问 控制 标记 语言 (Extensible Access Control Markup Language, XAC- 
ML) 指定 了 用 于 策略 规范 的 语言 。 此 外 ， 还 有 联盟 身份 管理 的 标准 ， 如 自由 联盟 的 联 
盟 工 作 和 高 级 Web 服务 安全 性 标准 ， 包 括 WS 和 WS * 安全 性 。 我 们 对 Web 服务 安全 的 
一 些 研究 也 包括 授权 模型 。 


1.3.2 语义 服务 安全 


语义 服务 是 将 服务 技术 与 语义 Web 技术 相 结 合 的 服务 。 语 义 Web 由 Tim Berners 
Lee 发 明 ， 以 支持 网 页 可 以 被 机 融 理 解 的 想法 。 如 今 ， 语 义 Web 被 看 作 是 一 个 通过 与 语 
义 相 关 的 节点 和 链接 构成 的 非常 大 的 链接 图 。 语义 Web 是 包括 XML 和 资源 描述 框架 
( Resource Description Framework, RDF) 在 内 的 一 系列 技术 的 集合 。 这 些 利 用 语义 Web 
技术 的 网 络 服务 是 语义 Web 服务 。 

语义 信息 系统 安全 本 质 上 集成 了 语义 Web 、 服 务 和 安全 技术 。 语 义 Web 技术 可 提 
供 机 器 理解 的 网 络 服务 。 利 用 语义 Web 技术 的 网 络 服务 可 以 处 理 语义 异 构 性 和 其 他 互 
操作 性 问题 。Web 服务 安全 需要 使 用 语义 Web 安全 技术 。Web 服务 所 使 用 的 XML 和 
RDF 文档 必须 是 安全 文档 。 语 义 Web 服务 安全 的 一 些 关 键 方面 包括 XML 安全 性 和 Web 
服务 /RDF 安全 性 和 Web 服务 ， 本 体 安 全 和 Web 服务 ， 最 后 是 规则 安全 和 Web 服务 安 
全 。 我 们 定义 ， 利 用 语义 服务 的 云 是 语义 云 。 我 们 的 许多 实验 系统 都 要 利用 语义 云 。 


1.3.3 专用 服务 安全 


专用 的 网 络 服务 包括 安全 的 数据 、 信 息 、 知 识 和 活动 管理 服务 以 及 域 网 络 服务 。 数 
据 管理 服务 包括 那些 用 于 事务 安全 、 存 储 安全 和 查询 处 理 安全 的 服务 。 复 杂 的 数据 管理 
服务 包括 安全 的 多 媒体 和 地 理 空间 网 络 服务 。 信 息 管理 服务 包括 信息 检索 安全 和 信息 安 
全 可 视 化 。 知 识 管 理 服 务 包 括 知 识 产 权 管 理 安 全 。 活 动 管理 服务 包括 电子 商务 安全 和 信 
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息 共 享 保障 (Assured Information Sharing, AIS) 。 

我 们 将 详细 说 明 一 些 问 题 。 知 识 管 理 是 关于 重复 使 用 组 织 的 知识 和 专长 来 提高 利润 
和 其 他 收益 。 在 本 书 的 第 一 部 分 和 第 二 部 分 中 ,我 们 将 研究 更 详细 的 数据 、 信 息 和 知识 
管理 的 安全 问题 ， 然 后 讨论 语义 Web 技术 被 应 用 于 数据 、 信 息 和 知识 的 管理 中 。 异 构 
数据 源 的 互 操作 性 是 许多 应 用 程序 的 关键 。 面 临 的 挑战 是 如 何在 不 同 的 安全 系统 中 相互 
操作 ? 如 何 整合 异 构 的 安全 策略 ? 电子 商务 (也 被 称 为 电子 贸易 ) 是 指 组 织 在 网 上 进 
行 交 易 。 电 子 商 务 的 各 种 模型 、 架 构 和 技术 正在 被 开发 。 由 于 我 们 正在 处 理 的 是 像 资金 
和 账户 等 重要 的 数据 ， 所 以 开展 电子 商务 时 ， 这 些 信息 的 保密 性 和 隐私 性 是 至 关 重 要 
的 。 我 们 还 必须 确保 数据 没有 恶意 损坏 。AIS 是 共享 信息 的 组 织 ， 但 为 了 集成 和 挖掘 数 
据 去 提取 有 用 信息 ， 且 同时 保持 安全 性 ，AIS 也 要 实施 策略 和 程序 。 对 于 上 述 所 有 应 
用 ,网 络 服务 均 起 着 重要 的 作用 。 

人 们 正在 为 许多 应 用 部 署 Web 服务 ， 包 括 医疗 、 金 融 、 指 挥 和 控制 及 电信 。 这 也 
适用 于 诸如 电子 商务 、 知 识 管理 ， 以 及 AIS 等 技术 。 其 他 新 兴 的 Web 服务 包括 用 于 网 
格 的 Web 服务 (最近 诸如 Oracle 的 公司 正在 开发 基于 网 格 的 Web 服务 ) 。 此 外 ， 亚 马 
撑 网 络 服务 也 基于 网 格 范 式 。 

其 他 类 型 的 网 络 服务 ， 其 中 包括 数据 即 服 务 和 软件 即 服 务 。 例 如 ， 数 据 中 心 管理 客 
户 的 数据 。 客 户 可 以 通过 网 络 服务 调用 这 样 的 数据 服务 。 客 户 还 可 以 调用 各 种 软件 
(如 编译 器 和 操作 系统 ) 作为 网 络 服务 。 在 本 书 的 第 三 部 分 和 第 五 部 分 中 ,我 们 将 论述 
为 了 云 中 的 数据 、 信 息 、 知 识 和 活动 管理 ， 而 使 用 的 网 络 服务 及 其 安全 。 


1.4 云 计 算 概 念 


云 计算 是 信息 技术 和 数据 处 理 领域 中 新 兴 的 计算 模式 。 企 业 利 用 云 计算 服务 将 数据 
维护 外 包 ， 可 以 带 来 巨大 的 经 济 效益 。 企 业 从 远程 位 置 的 “云端 ”存储 和 访问 数据 。 
新 兴 的 云 计算 模式 试图 解决 网 络 设备 连接 的 增长 的 问题 ， 并 处 理 海量 数据 。 谷 歌 现在 推 
出 了 Map/Reduce 框架 ， 用 于 处 理 商 品 硬件 上 的 大 量 数据 。Apache 的 Hadoop 分 布 式 文 
件 系统 (Apache's Hadoop Distributed File System，HDFS) ， 与 Map/Reduce 等 集成 部 件 
组 合 ， 正 在 成 为 云 计算 的 高 级 软件 组 件 。 

人 类 的 推理 、 解 释 和 决策 能 力 需求 的 增长 导致 了 语义 Web 的 出 现 ， 这 是 一 个 积极 
的 尝试 : 将 网 络 从 目前 的 只 有 人 类 可 读 的 形式 转变 为 机 器 可 处 理 的 形式 。 这 反 过 来 导致 
大 量 社交 网 站 包含 大 量 数据 被 共享 和 管理 。 因 此 ， 我 们 需要 可 扩展 技术 来 处 理 大 量 的 站 
点 和 处 理 大 量 的 数据 。 

云 计算 技术 将 在 本 书 的 第 三 部 分 详 述 。 其 主题 包括 : (D 云 计算 功能 ， 如 虚拟 化 和 存 
HEH, @ 云 和 数据 的 管理 功能 ， 如 云 查询 处 理 和 事务 管理 ; @@ 云 计算 应 用 ; 由 云 计算 
产品 和 工具 。 我 们 也 论述 了 云 计算 框架 。 图 1. 4 说 明了 云 计算 技术 的 相关 主题 。 

请 注意 ， 云 实质 上 是 为 客户 提供 一 系列 服务 。 这 些 服务 包括 基础 设施 服务 、 平 台 服 
务 和 应 用 服务 ， 以 及 数据 、 信 息 、 知 识 和 活动 管理 服务 。 云 也 可 以 提供 语义 服务 ， 我 们 
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云 计算 技术 
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云 计算 的 概念 || 云 计 算 功能 | 





云 数据 管理 | 2m 








| 云 应 用 





称 这 种 云 为 语义 云 。 





图 1.4 


1.5 云 计算 实验 系统 





随 着 云 计算 的 普及 ， 服 
数据 ， 同 时 提供 高 效 的 信 ， 








云 计 算 技术 


务 提供 商 面 临 着 越 来 越 大 的 挑战 。 他 们 必须 保持 大 量 的 异 构 











Ez. Al 


此 ， 云 计算 解决 方案 的 重点 是 可 扩展 





性 和 查询 效率 。 为 此 ， 我 人 





门 设计 并 开 


发 了 各 种 云 查询 处 理 实验 系统 。 这 些 
措施 包括 语义 Web 数据 以 及 云 中 的 关 
系数 据 的 查询 处 理 。 我 们 还 要 研究 可 
以 托管 的 应 用 ， 如 在 云 中 的 本 体 管 理 





和 社交 网 络 。 


本 书 的 第 四 部 分 将 讨论 基于 云 计 












云 查 询 
处 理 系统 


云 计 算 实验 系统 





图 1.5 





云 计算 实验 系统 


算 技术 开发 的 实验 系统 。 我 们 将 论述 使 用 Hadoop/Map/ Reduce 框架 开发 的 云 查询 处 理 系 
统 。 我 们 的 系统 处 理 大 量 的 语义 Web 数据 。 特 别 是 ， 我 们 为 SPARQL 协议 和 RDF 查询 





语言 (SPARQL) 查询 处 理 器 ， 设 计 并 天 











持 社交 网 络 和 本 体 管理 应 用 


1.6 云 计 算 安 全 

















的 云 系 统 。 图 





1.5 WH TRNA 








F 发 了 一 个 在 云端 的 查询 处 理 器 。 我 们 开发 了 文 








F 发 的 一 些 云 计算 实验 系统 。 


目前 的 云 计算 技术 ， 如 利用 HDFS 和 Map/Reduce 的 云 计算 技术 ， 由 于 没有 提供 足 
够 的 安全 机 制 来 保护 敏感 数据 ， 所 以 是 不 成 熟 的 。 因 此 ， 我 们 从 空军 科学 研究 室 (Air 
Force Office of Scientific Research , AFOSR) 获得 资助 ， 并 利用 最 先进 的 人 硬件、 软件 和 数 
据 ， 组 成 一 个 安全 的 云 计 算 平 台 ， 用 来 弥补 当前 云 计算 系统 开发 的 不 足 之 处 。 特 别 地 ， 
我 们 的 目标 是 中 利用 现代 硬件 部 件 〈 例 如 ， 安 全 协 处 理 器 ) 来 提高 性 能 ， 这 是 由 于 结 

















合 了 附加 的 安全 功能 ; DORRA WEER ANK E 



































关 开 发 软件 的 部 件 ， 来 支持 复杂 数据 


查询 操作 ; @@ 支 持 细 粒 度 访问 控制 和 基准 监控 支持 ， 为 复杂 数据 提供 安全 性 ; OA ait 
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《了 去 计 算 开发 与 安全 











算 提供 强大 的 身份 验 记 
我 们 将 在 本 书 的 第 五 部 分 描述 云 计算 系统 的 安全 性 。 特 别 ] 
安全 框架 ; @ 云 计算 功能 安全 ， 如 虚拟 化 安全 ; 加 云 查询 处 理 安 全 ; 由 云 计算 安全 产 
品 。 云 计算 安全 技术 如 























E 机 制 。 


























图 1.6 所 示 。 


云 计算 安全 技术 











云 计算 
安全 概念 


云 计算 
功能 安全 








云 数据 
管理 安全 











云 计算 
安全 指南 


云 计 算 安全 
标准 与 产品 











安全 即 服 务 








1.7 


基础 设施 ， 来 开 








图 1.6 云 计算 安全 技术 


云 计算 安全 实验 系统 


在 AFOSR 的 资助 站， 我 们 探索 了 云 计算 的 安全 怕 
展 云 计算 安全 的 


教育 课程 。 基 于 人 研究 和 教育 的 目 
的 ， 我们 开发 了 一 些 云 计算 安全 
实验 系统 。 将 在 本 书 的 第 六 部 分 
详 述 我 们 的 一 些 系 统 。 在 
中 ， 我 们 列 出 了 这 些 系统 。 


第 一 个 系统 对 关系 型 数据 系 





统 进行 基于 云 的 安全 查询 处 理 。 
第 二 个 系统 对 语义 Web 数据 进行 
基于 云 的 安全 查询 处 到 


























云 计算 安全 











Eee 








图 1.7 


基于 关系 数据 的 
云 查询 处 理 安全 

















基于 语义 Web 数 据 
的 云 查询 处 理 安全 





亚马逊 网 络 


服务 的 安全 性 





图 1.7 云 计算 安全 实验 系统 





地 ， 我 们 将 详 述 中 云 计算 


E. 同时， 国家 科学 基金 会 建立 了 


E 我们 基本 上 利用 了 上 述 系 统 ， 在 本 书 的 第 四 部 分 将 讨论 这 些 系 


统 ， 并 将 安全 性 纳入 这 些 系 统 。 其 次 是 云 计算 安全 系统 ， 我 们 开发 它 时 利用 了 亚马逊 安 


全 的 云 服 务 。 


1.8 面向 安全 应 用 的 云 
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IV. 














我 们 的 第 




















经 开发 了 一 个 基于 云 j 
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个 应 








计算 实验 























F 发 的 第 二 个 应 用 是 基于 云 


虽然 前 面 几 节 讨 论 了 云 技术 、 云 安全 技术 以 及 我 们 开发 的 一 些 实验 系统 ， 但 在 本 节 
中 ， 我 们 将 讨论 各 种 安全 应 用 如 何 通 过 使 用 云 受益 。 其 中 一 些 应 用 将 在 本 书 的 第 七 部 分 进 
j 是 恶意 软件 检测 。 我 们 必须 挖掘 大 量 的 数据 来 检测 系统 是 否 因 亚 
意 软 件 而 遭 到 破坏 。 通 常情 况 下 ， 亚 意 软件 可 能 会 改变 其 模式 ， 以 避免 被 发 现 。 我 们 
十 算 的 恶意 软件 检测 解决 方案 。 我 们 姑 


=] 
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的 





on) 


第 1 章 5l 





内 部 威胁 检测 。 由 于 悉 怖 主义 和 企业 之 间 的 激烈 这 争 ， 内 部 威胁 成 为 一 个 日 益 危 险 的 问 
题 。 我 们 正在 开发 用 于 内 部 威胁 检测 的 数据 挖掘 工具 。 我 们 将 论述 一 个 使 用 云 计算 技术 
的 工具 。 第 三 个 应 用 是 AIS。 各 个 组 织 (例如 ， 执 法、 医疗 保健 和 政府 联盟 ) 必须 共同 
努力 ， 共 享 信息 ， 来 解决 问题 。 同 时 也 必须 执行 适当 的 安全 策略 ， 以 便 仅 共 享 授权 信 
息 。 这 样 的 AIS 应 用 可 以 通过 使 用 云 而 受益 菲 浅 。 相 关 组 织 机 构 可 以 在 云 中 存储 数据 和 
策略 ， 并 根据 策略 共享 信息 。 第 四 个 应 用 是 语义 云 中 的 AIS。 

其 他 安全 应 用 可 以 被 托管 在 云 上 ， 包 括 身份 和 访问 管理 以 及 电子 邮件 的 垃圾 邮件 过 
滤 。 我 们 在 本 节 中 论述 的 安全 应 用 如 图 1.8 所 示 。 请 注意 ， 对 于 这 些 应 用 ， 云 提供 安全 
















































































即 服 务 。 
面向 安全 
应 用 的 云 计算 
在 云端 过 滤 电 子 || 在 云端 恶意 云 中 的 身份 在 云端 基于 在 云端 的 内 部 
邮件 /垃圾 邮件 软件 的 检测 访问 管理 策略 的 信息 共享 威胁 检测 

















图 1.8 面向 安全 应 用 的 云 计 算 





1.9 迈 向 可 信赖 的 云 


在 我 们 的 定义 中 ， 可 信赖 包括 诸如 
保密 性 、 隐 私 性 、 可 信任 、 完 整 性 、 高 
保障 、 容 错 性 方面 ， 并 满足 实时 约束 。 
本 书 的 重点 是 云 安全 ， 主 要 介绍 的 主题 
是 保密 性 。 我 们 的 最 终 目标 是 建立 可 靠 
的 云端 。 这 样 的 云端 必须 维护 隐私 ， 确 图 1.9 可 信赖 的 去 
保 信任 ， 具 有 高 度 的 完整 性 ， 并 确保 数据 质量 。 请 注意 ， 这 不 是 一 个 标准 的 定义 。 也 就 
是 说 ， 一 些 论文 和 书籍 互 换 使 用 了 可 信 性 和 可 靠 性 。 此 外 ， 一 些 文件 还 暗示 ， 安 全 性 包 
括 保密 性 、 完 整 性 和 隐私 性 。 

图 1.9 说 明了 可 信赖 的 云 的 各 个 方面 。 面 临 的 挑战 是 确保 云 提供 的 所 有 安全 特征 ， 
如 隐私 性 、 可 信任 、 保 密 性 和 完整 性 。 从 本 质 上 讲 ， 云 必须 是 灵活 的 。 本 书 的 第 八 部 分 
将 重点 关注 这 样 值得 信赖 的 云 。 


1.10 面向 云 安全 建立 基础 设施 、 教 育 项 目 和 研究 计划 


虽然 在 云 计 算 安全 方面 正在 进行 技术 开发 ， 但 同样 重要 的 是 在 云 计算 安全 上 构建 安 
全 的 基础 设施 、 教 育 项 目 和 研究 计划 。 图 1. 10 说 明了 我 们 在 这 些 领域 的 工作 。 

我 们 迫切 需要 安全 地 存储 、 管 理 、 分 享 和 分 析 大 量 复杂 (例如 半 结 构 化 和 非 结 构 
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人) 去 计算 开发 与 安全 


—_ 














为 云 安 全 开发 基础 设施 、 
教育 项 目 和 研究 计划 
基于 Hadoop/Map/Reduce 


BRE 
的 基础 架构 查询 处 理 
云端 的 身份 和 访问 控制 
图 1.10 面向 云 安全 的 基础 设施 、 教 育 项 目 和 研究 计划 


化 ) 数据 ， 以 确定 模式 和 趋势 ， 用 来 提高 医疗 保健 质量 ， 更 好 地 维护 国家 和 探索 可 替 
代 的 能 源 。 然 而 ， 据 我 们 所 知 ， 上 述 所 需求 的 基础 设施 并 没有 得 到 解决 。 因 此 ， 我 们 在 
得 克 萨 斯 大 学 达拉斯 分 校 (UTD) 开发 了 一 种 支持 云 安全 的 基础 设施 ， 这 种 设施 由 
AFOSR 和 美国 国家 科学 基金 会 资助 。 使 用 这 种 基础 设施 ， 用 户 可 以 查询 大 量 复杂 的 
(例如 ， 语 义 Web 和 地 理 空 间 ) 数据 ， 同 时 确保 数据 的 保密 性 和 隐私 性 。 

为 了 建立 有 效 的 云 计算 安全 系统 ， 我 们 还 需要 在 这 个 主题 上 建立 一 个 强大 的 教育 项 
目 ， 以 便 我 们 让 学 生 开 展 相 关 工 作 。 因 此 ， 我 们 还 在 美国 国家 科学 基金 会 的 资助 下 ， 通 
过 云 计算 安全 项 目 设立 了 包含 一 些 课程 的 教育 项 目 。 这 些 课程 形成 了 一 套 复杂 的 体系 ， 
这 个 体系 为 其 他 机 构 的 云 计算 安全 能 力 建设 和 教育 提供 了 一 个 范例 。 
虽然 云 计算 受到 了 极 大 的 关注 ， 但 在 保护 云 安 全 方面 还 有 许多 工作 需要 去 做 。 因 
此 ， 我 们 启动 了 由 AFOSR 在 2008 年 至 2014 年 期 间 资 助 的 多 组 织 合作 研究 项 目 ， 其 中 
包括 对 云 安全 问题 的 研究 ， 例 如 云 存 储 安全 ， 云 数据 和 信息 管理 安全 ， 面 向 云 的 信息 以 
及 安全 模型 。 


1.11 本 书 的 结构 


本 书 分 为 九 个 部 分 ， 每 个 部 分 描述 与 构建 和 保护 云 相关 技术 的 某 些 方面 。 本 书 的 重 
点 主要 是 关注 云 查 询 处 理 和 周边 安全 问题 ， 同 时 还 将 介绍 利用 云 计算 的 安全 应 用 ， 如 恶 
意 软 件 检 测 、AIS 和 内 部 威胁 检测 。 

第 一 部 分 , 由 3 3€ (582-4 98) 组 成 ， 将 摘 述 云 的 支撑 技术 。 这 些 包括 第 2 章 论 
述 的 计算 系统 的 演进 ， 第 3 章 介绍 的 安全 技术 以 及 第 4 章 阐 述 的 数据 、 信 息 和 知识 管理 
技术 。 这 些 支撑 技术 为 云 数 据 管理 和 云 计算 安全 提供 了 背景 信息 。 

第 二 部 分 , 由 3 章 (第 5 ~7 章 ) 组 成 ， 将 论述 服务 和 服务 安全 技术 的 概念 。Web 
服务 是 云 计算 的 核心 ， 因 此 ， 理 解 Web 服务 的 安全 性 问题 对 于 云 计算 安全 很 重要 。 这 
是 因为 云 为 其 客户 提供 服务 ， 包 括 基 础 设施 服务 、 平 台 服 务 和 应 用 服务 。 第 5 章 介 绍 
SOA 和 Web 服务 、SOAD 以 及 安全 服务 。 第 6 章 将 讨论 语义 Web 服务 和 相关 的 安全 问 
题 。 第 7 章 将 论述 专用 的 网 络 服务 ， 如 信息 和 知识 管理 服务 。 

第 三 部 分 , 由 5 章 (第 8~12 章 ) 组 成 ,将 论述 云 计 算 的 核心 课题 。 在 第 8 章 中 ， 
介绍 基本 的 云 计算 概念 和 云 计算 框架 的 实现 。 第 9 章 将 阐述 包括 虚拟 化 、 存 储 管理 和 数 
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第 1 章 8l Ta 





据 管理 在 内 的 云 计 算 功 能 。 我 们 将 用 整个 第 10 章 论 述 云 数据 管理 ， 因 为 我 们 开发 的 许 
多 原型 集中 在 云 数 据 管 理 。 第 11 章 讨 论 云 应 用 。 第 12 章 讨 论 各 种 云 产品 和 服务 提 
供 商 。 

第 四 部 分 , 由 3 章 (5813 ~15 章 ) 组 成 ,将 讨论 我 们 开发 的 云 计算 实验 系统 的 原 
型 。 第 一 个 是 云 查询 处 理 系 统 原 型 ， 在 第 13 章 讨 论 。 第 14 章 介 绍 云 中 的 社交 网 络 。 第 
15 章 讨论 我 们 开发 的 多 个 云 计算 系统 ， 包 括 基 于 云 的 社交 网 络 、 基 于 云 的 语义 Web 数 
据 管理 和 基于 本 体 的 云 查询 处 理 。 

第 五 部 分 , 由 6 章 (第 16 ~21 章 ) 组 成 ， 讨 论 云 计算 安全 。 第 16 章 介 绍 云 计 算 的 
安全 性 。 云 计算 功能 的 安全 ， 如 虚拟 化 安全 、 存 储 安全 和 数据 管理 安全 在 第 17 章 中 讨 
论 。 由 于 我 们 的 大 部 分 工作 都 集中 在 云 数据 管理 安全 ， 所 以 我 们 将 用 整个 第 18 章 讨 论 
这 个 主题 。 云 计算 安全 指南 将 在 第 19 章 中 说 明 。 安 全 即 服务 的 概念 在 第 20 FPR, 
最 后 ， 云 计算 产品 安全 将 在 第 21 章 中 讨论 。 

第 六 部 分 ， 由 3 章 (第 22 ~24 章 ) 组 成 ,将 介绍 我 们 开发 的 云 数 据 管理 安全 的 实 
验 系统 。 使 用 关系 数据 进行 云 查询 处 理 的 安全 是 第 22 章 的 主题 。 第 23 章 将 讨论 具有 语 
X. Web 数据 的 查询 处 理 安全 。 第 24 章 介绍 亚马逊 Web 服务 和 信息 集成 的 安全 性 。 

第 七 部 分 ， 由 4 章 (第 25 ~28 章 ) 组 成 ,将 介绍 使 用 云 计算 的 安全 应 用 。 第 25 章 
描述 云 在 恶意 软件 检测 中 的 使 用 。 基 于 云 的 内 部 威胁 检测 将 在 第 26 章 讨 论 。 第 27 SW 
述 了 基于 云 的 信息 共享 保障 。 第 28 章 介 绍 基于 语义 云 的 AIS。 

第 二 ~ 七 部 分 讨论 的 安全 问题 主要 集中 在 安全 性 的 保密 方面 ， 在 第 八 部 分 ， 由 3 章 
(第 29 ~31 È) 组 成 ,将 讨论 我 们 关于 建立 可 信赖 的 云 的 一 些 想法 。 这 种 云 不 仅 要 确 
保 敏感 数据 的 安全 ， 还 必须 确保 可 信任 、 隐 私 性 和 完整 性 。 在 第 29 章 中 ， 讨 论 云 服务 
的 信任 管理 。 在 第 30 章 中 ,介绍 云 服 务 的 隐私 问题 。 在 第 31 音 中 ， 阐 述 云 服务 的 完整 
性 和 数据 质量 。 

最 后 ， 第 九 部 分 , 由 4 章 (第 32 ~35 章 ) 组 成 ,讨论 我 们 关于 开发 云 安 全 的 基础 
设施 、 教 育 项 目 和 研究 计划 的 方法 。 第 32 章 描述 一 个 云 安全 的 基础 设施 ， 包 括 硬件 基 
础 设施 、 软 件 基础 设施 和 数据 基础 设施 。 第 33 章 介 绍 我 们 正在 开发 的 云 计算 安全 的 教 
育 项 目 。 它 包括 云 计算 安全 的 顶级 课程 ， 以 及 对 当前 安全 课程 的 增强 ， 如 数据 和 应 用 安 
全 性 ， 以 及 其 相关 云 计算 安 全 主题 单元 (例如 ， 云 数据 管理 安全 ) 。 在 第 34 章 中 ,将 
描述 我 们 关于 云 安全 的 研究 合作 情况 。 我 们 已 经 为 云 安 全 定义 了 一 个 框架 ， 并且 已 经 确 
定 了 几 个 研究 问题 ， 同 时 正在 为 这 些 问题 开发 解决 方案 。 第 35 章 对 本 书 进行 了 总 结 ， 
并 讨论 了 将 来 的 研究 方向 。 

每 一 部 分 的 内 容 都 是 以 简介 开始 ， 以 总 结 结尾 。 此 外 ， 第 2 ~ 34 章 分 别 以 概述 开 
始 ， 并 以 该 章 总 结 和 展望 以 及 参考 文献 结尾 。 男 外 ， 本 书 还 有 4 个 附录 ， 用 以 补充 书 中 
讨论 的 概念 。 附 录 A 提供 了 数据 管理 的 概述 ， 并 讨论 我 们 所 写 章 节 之 间 的 关系 。 这 是 
我 们 所 有 书籍 的 标准 做 法 。 在 附录 B 中 ， 我 们 讨论 数据 挖掘 技术 。 这 是 因为 我 们 云 计 
算 的 大 部 分 工作 都 集中 于 云 数 据 管理 ， 以 及 应 用 数据 挖掘 技术 ， 来 进行 云 中 的 恶意 软件 
检测 和 内 部 威胁 检测 。 云 数据 挖掘 有 时 被 称 为 “大 数据 分 析 ”， 不 仅 可 用 于 恶意 软件 检 
测 ， 还 可 用 于 医疗 保健 管理 、 财 务 分 析 和 科学 数据 管理 。 附 录 C 中 描述 数据 安全 的 一 
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5 层 是 云 安全 技术 层 ， 


S inl 




















aes ， 如 访问 控制 和 查询 修改 (也 称 为 查询 重 写 )。 
念 应 用 于 云 数据 管理 安全 。 由 于 我 们 已 经 在 前 几 章 介绍 了 基于 云 的 AIS， 所 以 我 们 
oc 下 AIS 项目 。 


我 们 开发 了 一 个 9 层 架 构 来 更 好 地 解释 本 书 的 概念 。 
部 分 。 第 2 层 是 安全 服务 层 ， 涵 盖 本 书 第 二 部 分 





民 是 支撑 技术 层 ， 


B3 层 是 云 计算 层 ， 





涵盖 了 本 书 的 第 一 


涵盖 本 











部 分 。 第 7 层 是 云 应 用 层 ， 


部 分 
框架 的 组 成 部 分 之 间 的 关系 如 图 

















涵盖 本 书 第 五 部 分 
涵盖 本 书 第 七 部 分 。 














书 第 三 部 分 。 54 EXER 
d E EE, PRGA BoB 


在 整 本 书 中 ， 我 们 将 许多 这 


这 个 架构 如 图 1.11 所 示 。 第 1 
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统 层 ， 涵盖 本 书 第 四 部 分 。 第 























。 第 9 层 是 云 的 基础 设施 、 教育 项 目 和 研究 局 oai 
1.12 所 示 。 





层 是 可 信赖 的 云 屋 ,涵盖 本 书 第 八 


本 书 第 九 部 分 。 本 书 的 章节 和 






































基础 设施 = 基础 设施 、 教 育 与 研究 
可 信赖 的 去 
面向 安全 的 实验 去 
云 安全 实验 系统 
安全 的 去 
实验 去 
云 计算 
计算 服务 与 安全 性 
数据 、 信 
RES 5) Casa 支撑 技术 
识 管理 
图 1.11 云 计算 安全 分 层 框 架 


$ A. Ax 
ume, gai R 基础 设施 、 教 育 与 研究 











可 信赖 的 云 
内 部 威 \ /人 语义 信 
WEN, (ra | 息 共享 面向 安全 的 实验 去 
第 26 章 第 28 章 
RAE N /镇 义 WebN /从 
vum AIR, ud 云 安全 实验 系统 
22 章 第 23 章 
概念 ， J E. E. zx E 
m "A 
实验 云 








服务 计算 与 安全 性 
: Ei 数据 、 信 
从 主机 到 (ERN CES S 支撑 技术 
去， 第 2? 章 / \ IDE QPEL, SAR 
图 


到 1.12 本 书 的 内 容 架 构 








1.12 后 续 





本 章 主 要 介绍 本 书 的 构成 。 首 先 ， 简 要 概述 了 云 安 全 技术 的 支撑 技术 ， 包 括 安全 性 
和 数据 管理 。 接 下 来 ， 讨 论 了 网 络 服务 安全 和 语义 Web 服务 安全 ， 其 次 是 云 技 术 和 云 
安全 技术 的 论述 ， 然 后 是 论述 利用 云 的 安全 应 用 ， 接 着 是 关于 值得 信赖 的 云 的 讨论 。 最 
后 ， 我 们 对 构建 云 的 安全 基础 设施 、 教 育 项 目 以 及 研究 合作 的 方法 进行 了 论述 。 



































13 


©) 去 计算 开发 与 安全 


— 





本 书 提供 了 读者 了 解 云 计算 和 云 计算 安全 的 信息 。 我 们 对 这 个 话题 进行 了 大 量 的 研 
jt, 深入 讨论 了 云 查 询 处 理 安全 等 主题 。 其 他 一 些 话题 只 是 进行 了 简要 讨论 ， 如 虚拟 化 
安全 和 云 取 证 。 但 是 ,我 们 为 这 些 主题 提供 了 参考 文献 。 然 而 ， 应 该 指出 的 是 ， 我 们 讨 

















论 的 许多 话题 还 处 于 研究 阶段 。 


























本 书 的 主要 贡献 之 一 是 提高 云 计算 安全 重要 性 的 意识 。 也 就 是 说 ， 我 们 与 之 前 所 出 
版 的 书 一 致 ， 特 别 是 ， 为 了 向 技术 管理 者 解释 什么 是 云 计 算 安全 。 我 们 在 云 计算 安全 方 





























到 技术 人 员 和 研究 人 员 。 我 们 在 本 书 中 也 提供 了 参考 资料 。 


掉 进 行 了 相当 广泛 的 研究 ， 还 试图 涵盖 包括 技术 细节 以 及 实验 系统 的 内 容 ， 这 也 会 帮助 


近年 来 出 现 了 几 个 新 的 云 计算 会 议 。 这 些 包 括 与 服务 计算 会 议 以 及 CloudCom 一 起 














举办 的 IEEE ( Institute of Electrical and Electronic Engineers, 美国 电气 电子 工程 师 学 会 


计算 机 学 会 的 云 计算 会 议 。 计 算 机 协会 ( Association of Computing Machinery, ACM) 最 
近 开 始 举 行 自己 的 云 计算 会 议 。 我 们 认为 ， 随 着 云 计算 安全 技术 的 进步 ， 将 出 现 完全 致 
力 于 云 计算 安全 的 会 议和 期 刊 。 我 们 鼓励 读者 跟 上 这 个 快速 增长 的 发 展 态势 。 我 们 坚信 





未 来 的 计算 是 云 计 算 。 服 务 和 组 件 将 由 来 自 世 界 各 地 的 多 个 提供 商 必 





fF 发。 而 挑战 是 将 这 








些 服务 和 组 件 放 在 一 起 ， 并 构建 安全 的 云 计算 系统 和 应 用 。 还 有 一 个 挑战 是 ， 即 使 部 分 





云 可 能 被 破坏 ， 但 还 要 确保 云 运行 ， 并 为 其 客户 提供 安全 的 服务 。 


参考 文献 


[NIST] The NIST definition of Cloud Computing, http://csrc.nist.gov/publications/ 


nistpubs/800-145/SP800-145.pdf 


第 一 部 分 简介 


为 了 使 云 计算 能 安全 地 应 用 ， 我 们 需要 确保 多 种 支撑 技术 必须 协同 工作 。 这 些 
理 技 术 。 我 们 将 在 第 一 部 分 讨论 这 


包括 计算 技术 ， 安 全 技术 和 数据 、 
uo 





debe 


ARS MAS 


debe 


措施 
些 文 








一 部 分 由 3 章 组 成 ， 即 第 SE. 4 








EUN 。 具 体 来 说 ， 将 论述 从 大 型 








术 的 。 


和 3 章 、 





4 章 。 在 第 2 章 中 ， 我 们 对 计算 技术 





E 


4 主机 到 云 的 计算 演进 。 在 第 3 章 中 ， 我 们 将 讨论 安 
全 技术 。 特 别 是 ， 对 设计 安全 系统 方面 进行 讨论 。 在 第 4 章 ， 我 们 将 讨论 数据 、 信 息 与 
知识 管理 技术 。 请 注意 ， 我 们 的 许多 云 计算 实验 系统 都 是 基于 数据 、 信 息 与 知识 管理 技 
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第 2 章 从 主机 到 云 


2.1 概述 


























虽然 早期 的 计算 系统 是 基于 查尔斯 . 巴 贝 奇 的 机 械 系统 ， 但 现代 电子 计算 机 系统 在 
18 诺 依 曼 的 工作 下 诞生 于 20 世纪 40 年 代 。 这 是 20 世纪 30 年 代 著 名 的 数学 家 和 逮 辑 
学 家 库 尔 特 : 哥 德 尔 、 艾 伦 . 图 录 和 阿 隆 佐 . EAP RSET PSE AY ZR, LEE AR ALE 
辑 学 家 着 重 于 可 计算 性 的 概念 。 也 就 是 说 ， 能 否 提 前 确定 程序 是 否 停止 ?这 就 是 著名 的 
Se + 图 灵 的 停机 问题 。 

Á 20 世纪 40 年 代 电 子 计算 机 的 问世 ， 到 20 世纪 50 年 代 的 大 型 计算 机 ， 再 到 21 世 
纪 初 的 云 主 机 ， 电 子 计 算 机 已 经 取得 了 巨大 的 进步 。 本 章 概述 了 计算 系统 的 演进 。 在 
2.2 节 中 ， 介 绍 了 大 型 计算 机 、 微 型 计算 机 和 个 人 计算 机 。 在 2.3 节 中 ， 论 述 了 分 布 式 
计算 ， 包 括 分 布 式 对 象 管理 。 在 2.4 WP, ET Web 的 出 现 。 在 2.5 F, METZ 
的 出 现 。2.6 节 总 结 本 章 。 图 2. 1 说 明了 这 种 演进 。 


机 械 系统 — 电子 系统 
大 型 计算 机 | | 小 型 计算 机 || 个 人 计算 机 || 分 布 式 计算 


图 2.1 计算 系统 的 演进 




























































































2.2 早期 计算 系统 


大 型 计算 机 出 现在 20 世纪 50 年 代 ， 并 在 20 世纪 60 年 代 得 到 了 关注 。 诸 如 国际 商 
业 机 器 (International Business Machines, IBM), Univac, 数字 设备 公司 ( Digital Equip- 
ment Corporation, DEC) 和 控制 数据 公司 等 公司 开始 开发 强大 的 主机 系统 。 这 些 主机 系 
统 主 要 为 科学 家 和 工程 师 进 行 数字 运算 ,使 用 的 主要 编程 语言 是 Fortran 。 而 后 在 20 ttt 
纪 60 年 代 ， 数 据 库 系 统 的 概念 产生 ， 一 些 公 司 也 开发 了 基于 网 络 和 分 层 数据 模型 的 数 
据 库 系统 。 当 时 的 数据 库 应 用 主要 是 用 COBOL 编写 的 。 

在 20 世纪 70 年 代 ， 像 DEC 这 样 的 公司 推出 了 微型 计算 机 的 概念 。DEC 的 VAX 机 
器 就 是 一 个 例子 。 这 些 机 需 比 大 型 主机 系统 小 得 多 。 就 在 那 段 时 间 ， 终 端 被 开发 了 出 
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第 2 章 Jun (nl 











来 。 这 样 ， 程 序 员 就 不 必 去 计算 中 心 ， 就 能 使 用 穿孔 卡 进行 计算 。 他 们 可 以 使 用 他 们 的 
终端 ， 并 将 作业 提交 到 计算 机 。 这 是 一 个 巨大 的 进步 。 也 正 是 在 这 段 时 间 里 ，C 语言 和 
UNIX 等 操作 系统 被 开发 出 来 。 

20 世纪 70 年 代 来 的 一 个 重大 发 展 是 个 人 计算 机 的 出 现 。 苹 果 电 脑 因 此 诞生 了 。 不 
和 久之 后 ，IBM 开发 了 自己 的 个 人 计算 机 。 微 软 为 这 些 IBM 的 机 器 开发 了 DOS。 在 20 世 
纪 80 年 代 初 ， 一 些 公司 如 Sun 微 系 统 、 阿 波 罗 和 HP (惠普 ) 等 开发 了 强大 的 工作 站 。 
基于 关系 数据 模型 的 数据 库 系 统 由 IBM 和 Oracle 等 企业 开发 。 到 了 80 年 代 中 期 ， 计 算 
机 已 经 做 好 全 面 服 务 于 世界 的 准备 。 图 2. 2 说 明了 早期 计算 系统 。 




































































工作 站 ，Sun、 
惠普 、 阿 波 罗 


大 型 pL, 个 人 说 
DM oS Md 


小 型 机 ，VAX 















































2.3 分 布 式 计算 


随 着 国防 高 级 研究 计划 局 (Defense Advanced Research Projects Agency, DARPA) 发 
明了 互联 网 ， 网 络 系统 在 20 世纪 70 年 代 获 得 了 发 展 机 会 ， 早 期 的 产品 出 现在 20 世纪 
80 年 代 。 计 算 机 通过 网 络 联系 在 一 起 ， 并 且 通 过 现在 称 为 电子 邮件 的 方式 进行 通信 并 
交换 消息 。 同 时 也 为 这 些 分 布 式 系统 开发 了 一 些 应 用 程序 。 这 个 思想 就 是 在 多 人 台 机 器 上 
利用 资源 并 进行 计算 。20 世纪 80 年 代 后 期 ， 出 现 了 并 行 计算 。 

20 世纪 90 年 代 初 期 出 现 的 计算 模式 是 分 布 式 对 象 模式 。 在 这 里 ,计算机 被 封装 为 

























































































对 象 。 通 过 这 种 方式 ， 对 象 通过 交换 消息 进行 通信 。 这 项 工作 使 得 诸如 对 象 管理 组 
(Object Management Group, OMG) 等 联盟 成 立 。 正 是 在 这 个 时 候 ， 面 向 对 象 语言 (f 
All, Smalltalk 和 C+ +) 轿 露 头角 。 图 2. 3 说 明了 分 布 式 对 象 计算 。 


分 布 式 计算 








分 布 式 系统 








图 2.3 分 布 式 计算 
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2.4 万 维 网 


20 世纪 90 年 代 初 ，20 世纪 的 主要 创新 之 一 出 现 了 ， 就 是 万 维 网 (WWW), WWW 














的 发 明 者 蒂 姆 . 伯 纳 基 











- 李 是 CERN (欧洲 核子 研究 委员 会 ，Conseil Europeen pour la 


Recherche Nucleaire) 在 瑞士 日 内 瓦 的 程序 员 。 他 发 起 了 一 个 支持 物理 学 家 共享 数据 的 





项 目 。 这 个 项 目 促使 了 万 维 网 的 产生 。 大 约 在 同一 时 间 ， 仇 


程序 员 开 发 了 MOSAIC 浏览 器 。 这 两 个 创新 使 














| 利 诺 伊 大 学 国家 计算 中 心 的 
得 普通 百姓 可 以 使 用 万 维 网 查询 和 搜索 信 


TS 





AL, 20 世纪 90 年 代 末 ， 出 现 了 几 个 搜索 引擎 ， 如 AltaVista 和 Lycos。 然 后 来 自 斯 坦 福 
大 学 的 两 名 研究 人 员 创办 了 一 家 名 为 谷歌 的 公司 ， 该 公司 目前 是 世界 上 著名 的 网 络 搜索 
公司 。jJava 也 成 为 一 个 流行 的 编程 语言 。 

20 世纪 90 年 代 也 预见 到 了 现在 的 网 络 繁荣 。 一 些 提 供 服 务 的 公司 的 成 立 ， 促 使 电子 
商务 的 产生 。 然 而 ， 当 时 的 基础 设施 技术 还 不 成 熟 ， 因 此 ， 这 些 公司 许多 都 没有 生存 下 
来 。 在 20 世纪 90 年 代 末 和 21 世纪 初 ， 基 于 服务 模式 的 网 络 服务 概念 被 创造 出 来 。 通 过 服 
务 技术 ， 为 电子 商务 建立 了 更 好 的 基础 设施 。 一 些 公司 根据 服务 模式 向 消费 者 提供 服务 。 

20 世纪 90 年 代 末 和 21 世纪 初期 ， 语 义 Web EREET. WE . 伯 纳 斯 . 李 的 
愿景 是 建立 一 个 更 智能 的 网 络 ， 并 且 这 个 网 络 可 以 理解 网 页 。 他 创建 了 标记 语言 ， 如 























XML 和 RDF; 还 创建 了 本 体 论 ， 以 便 不 同 的 社 
































区 可 以 相互 理解 。 服 务 计 算 和 语义 Web 


的 发 展 催生 了 社交 媒体 。Facebook 等 公司 成 立 于 21 世纪 00 年 代 的 中 期 ， 使 普通 人 不 仅 
可 以 在 网 络 上 搜索 信息 ， 还 可 以 通过 网 络 进 行 信息 交流 和 信息 共享 。 











HTTP, 
HTML, 
XML 


L— 





社交 媒体 — 语义 Web —«—— ”计算 服务 


Al 2.4 万 维 网 的 演进 


网 的 演进 。 
万 维 网 /MOSAIC 
2.5 云 计 算 





























电子 商务 





图 





2.4 说 明了 万 维 


服务 计算 、 分 布 式 计算 和 万 维 网 的 发 展 促使 了 云 计算 的 产生 。 这 个 想法 是 提供 计算 
作为 服务 ， 就 像 我 们 使 用 电力 服务 一 样 。 也 就 是 说 ， 云 服务 提供 商 将 为 消费 者 提供 不 同 

















程度 的 服务 。 该 服务 可 以 使 








如 组 织 财务 。 
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IZA 








计算 ， 去 进行 数据 库 管理 ， 或 为 应 用 程序 提供 支持 ， 


第 2 章 Aum C 

本 书 的 第 三 部 分 、 第 四 部 分 、 第 五 部 分 和 第 六 部 分 将 着 重 介绍 云 计算 的 概念 、 实 验 

系统 和 云 的 安全 性 。 由 于 服务 计算 是 云 计算 的 一 个 重要 方面 ， 所 以 我 们 将 用 第 二 部 分 来 

介绍 服务 计算 。 特 别 地 ， 我 们 讨论 了 网 络 服务 和 网 络 服务 的 安全 性 。 图 2.5 说 明了 云 计 
算 的 概念 。 























服务 的 云 服务 提供 商 
E 4 消费 者 B 


服务 的 
消费 者 A 云 基础 设施 


服务 的 
消费 者 C 





图 2.5 云 计算 
2.6 总 结 和 展望 


在 本 章 中 ， 我 们 简洁 地 概述 了 计算 的 演进 。 计 算 机 的 发 展开 始 于 冯 “' 读 依 曼 机 器 之 
后 数学 逻辑 学 家 的 研究 。 然 后 ， 我 们 谈 到 了 计算 机 从 大 型 主机 到 个 人 计算 机 的 演进 过 
程 。 最 后 ， 我 们 对 分 布 式 计算 、 服 务 计算 、 万 维 网 和 云 计 算 进 行 了 概述 。 

本 章 的 论述 将 为 本 书 中 讨论 的 主题 黄 定 基础 。 首 先 ， 我 们 将 提供 一 些 关 于 安全 系统 
以 及 数据 、 信 息 和 知识 管理 系统 的 背景 叙述 。 随 后 将 讨论 安全 的 Web 服务 和 可 信赖 的 
语义 Web。 然 后 ， 我 们 将 重点 关注 云 计算 和 云 计 算 安 全 的 主要 议题 。 特 别 是， 我 们 将 叙 
述 我 们 为 云 计算 和 云 计 算 安全 开发 的 技术 、 产 品 以 及 实验 系统 。 

我 们 相信 ， 计 算 会 继续 前 进 和 发 展 ， 同 时 面临 的 挑战 将 是 处 理 大 量 数据 。 这 一 挑战 
被 称 为 “大 数据 ”问题 。 因 此 ， 利 用 云 计算 开发 可 扩展 方案 来 解决 大 数据 问题 ， 这 将 
成 为 未 来 的 重点 。 
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第 3 章 可 信赖 的 系统 


3.1 概述 


正如 我 们 在 第 1 章 中 所 述 ， 云 计算 安全 集成 了 云 计算 技术 和 安全 技术 。 我 们 将 在 本 
书 的 第 三 部 分 讨论 云 计 算 技 术 。 在 本 章 中 ， 我 们 将 讨论 安全 技术 。 特 别 是 ， 我 们 将 概述 
可 信赖 的 信息 系统 ， 包 括 安 全 性 、 隐 私 性 、 完 整 性 、 可 靠 性 和 实时 处 理 。 可 信赖 的 系统 
是 安全 可 靠 的 系统 。 我 们 指 的 可 靠 的 系统 是 具有 高 完整 性 、 容 错 性 和 满足 实时 约束 的 系 
统 。 换 句 话说， 对 于 一 个 可 信赖 的 系统 ， 它 必须 是 安全 的 、 容 错 的 、 满 足 按 时 调度 的 ， 
并 管理 高 质量 的 数据 。 

本 章 概述 了 各 种 可 靠 系统 的 发 展 ， 特 别 强调 了 包括 安全 数据 系统 在 内 的 安全 系统 。 
我 们 专注 于 安全 数据 系统 ， 因 此 我 们 的 几 个 云 实验 系统 专注 于 云 中 的 查询 处 理 安 全 。 本 
章 的 结构 如 下 : 在 3.2 节 ， 我 们 将 讨论 安全 系统 的 一 些 细节 。3. 3 节 提 供 可 靠 系统 的 概 
述 ， 其 中 包括 信任 、 隐 私 、 完 整 性 、 数 据 质量 、 高 度 保障 系统 、 实 时 处 理 和 容错 能 
在 3.4 节 ， 讨 论 了 一 些 安全 威胁 ， 以 及 对 其 正在 提出 的 解决 方案 。 在 3.5 DW, 讨论 了 与 
端 到 端的 安全 对 应 的 、 用 不 受信 任 的 组 件 构 建 的 安全 系统 。 在 3.6 节 对 本 章 进行 了 总 
结 。 图 3.1 说 明了 本 章 中 讨论 的 概念 。 


可 信赖 的 系统 
^n 安全 威胁 
图 


图 3.1 可 信赖 的 系统 


































安全 的 系统 


3.2 安全 系统 


用 不 可 信和 组件 
构建 安全 系统 





3.2.1 简介 


安全 系统 包括 安全 操作 系统 、 安 全 数据 管理 系统 、 安 全 网 络 以 及 其 他 类 型 的 系统 ， 
如 基于 Web 的 安全 系统 和 安全 数字 图 书馆 等 。 本 节 提 供 了 信息 安全 的 发 展 概况 。 
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在 3.2.2 节 中 ， 我 们 讨论 信息 系统 访问 控制 等 基本 概念 。3. 2. 3 节 提 供 各 种 安全 系 
统 的 概述 。 安 全 操作 系统 将 在 3.2.4 节 中 讲述 。 安 全 数据 库 系统 将 在 3.2.5 节 中 论述 。 
安全 网 络 将 在 3. 2. 6 节 讨 论 。3. 2.7 节 的 主题 是 新 兴 趋 势 。Web 产生 的 影响 将 在 3.2.8 
节 给 出 。3.2.9 节 将 提供 构建 安全 系统 的 步骤 概述 。 图 3. 2 说 明了 本 节 中 讨论 的 各 种 


概念 。 


























安全 应 用 Web 安 全 





安全 操作 安全 数据 
系统 安全 网 络 库 系 统 


图 3.2 安全 系统 
































3.2.2 访问 控制 和 其 他 安全 概念 


访问 控制 模型 包括 强制 性 安全 和 自主 性 安全 。 在 本 节 中 ， 我 们 将 讨论 访问 控制 的 两 
个 方面 ， 并 考虑 其 他 问题 。 在 自主 访问 控制 模型 中 ， 用 户 或 用 户 组 被 授予 对 数据 对 象 的 
访问 权限 。 这 些 数据 对 象 可 以 是 文件 、 关 系 、 对 象 ， 甚 至 是 数据 项 。 访 问 控 制 策略 包括 
诸如 用 户 U 具有 对 关系 RI 的 读 访 问 和 对 关系 R3 的 写 访问 的 规则 。 访 问 控制 也 可 以 包 
括 和 否定 访问 控制 ， 如 用 户 U 没有 对 关系 R 的 读 取 访问 权限 。 

在 强制 访问 控制 中 ， 代 表 用 户 行为 的 主体 根据 某 些 策略 被 授予 对 对 象 的 访问 权限 。 
一 个 著名 的 策略 是 Bell 和 LaPadula 策略 〈 见 本 章 参考 文献 [BELL73] ) ， 其 中 主体 被 授 
予 许可 等 级 ， 客 体 具有 敏感 等 级 。 安 全 级 别 组 成 一 个 偏 序 格 ， 为 未 分 类 < 机 密 < 秘密 < 
绝密 。 该 策略 有 如 下 两 个 属性 ， 即 如 果 主 体 的 许可 等 级 高 于 客体 ， 则 主体 可 以 有 读 取 客 
体 的 访问 权限 ; 如果 客体 的 许可 等 级 高 于 主体 ， 那 么 主体 就 可 以 对 客体 进行 写 访 问 权 
限 。 还 有 其 他 类 型 的 访问 控制 ， 如 基于 角色 的 访问 控制 。 可 以 根据 用 户 的 角色 及 其 执行 
的 职能 ， 授 予 用 户 访问 权限 。 例 如 ， 人 事 经 理 可 以 获得 工资 数据 ， 而 项 目 经 理 可 以 访问 
项 目 数 据 。 
虽然 早期 的 访问 控制 策略 为 操作 系统 制定 ， 但 这 些 策略 已 经 扩展 到 包括 数据 库 系 
统 、 网 络 和 分 布 式 系统 等 其 他 系统 。 例 如 ， 网 络 策略 不 仅 包 括 读 写 的 策略 ， 还 包括 发 送 
和 接收 消息 的 策略 。 其 他 安全 策略 包括 管理 策略 。 这 些 策略 包括 对 数据 的 所 有 权 ， 以 及 
如 何 管理 和 分 发 数据 。 数 据 库 管 理 员 以 及 系统 安全 人 员 参 与 制定 管理 策略 。 

安全 策略 还 包括 识别 和 认证 策略 。 每 个 用 户 或 代理 代表 用 户 通过 使 用 一 些 密码 机 制 
进行 识别 和 验证 。 在 分 布 式 系统 中 ， 识 别 和 认证 变 得 更 为 复杂 。 例 如 ， 用 户 如 何在 全 球 
范围 内 进行 身份 验证 ? 
开发 安全 系统 的 步 又 包括 开发 安全 策略 、 开 发 系统 模型 、 设 计 系统 、 审 核 和 确认 系 
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统 ( 见 本 章 参 考 文献 [ANDE01 ] ) 。 用 于 审核 的 方法 取决 于 预期 的 安全 级 别 。 测 试 和 风 
险 分 析 也 是 开发 过 程 的 一 部 分 。 这 些 活动 将 确定 漏洞 以 及 评估 所 涉及 的 风险 。 图 3. 3 说 
明了 各 种 类 型 的 安全 策略 。 






























































认证 自主 访问 控制 || 强制 访问 控制 管理 
安全 策略 
图 3.3 安全 策略 


3.2.3 安全 系统 的 类 型 


在 3.2.2 节 中 ,我 们 讨论 了 构建 安全 系统 的 各 种 策略 。 在 本 节 中 ， 将 详细 介绍 各 种 
类 型 的 安全 系统 。20 世纪 60 年代 和 70 年 代 的 大 部 分 早期 研究 是 确保 操作 系统 的 安全 。 
为 了 操作 系统 的 安全 ， 人 们 制定 了 早期 的 安全 策略 ， 如 Bell 和 LaPadula 策略 。 随 后 ， 
开发 出 了 安全 的 操作 系统 ， 如 霍 尼 韦 尔 的 SCOMP 和 MULTICS (参见 本 章 参 考 文献 
[IEEE83])。 在 20 世纪 80 年代， 出 现 了 如 基于 无 干扰 模型 等 其 他 的 策略 。 
虽然 安全 数据 库 系 统 的 早期 研究 在 20 世纪 70 年 代 已 被 报道 ， 但 直到 20 世纪 80 年 
代 初 这 一 领域 才 开始 被 积极 地 研究 。 其 中 大 部 分 是 关注 于 多 层次 的 安全 数据 库 系统 。 操 
作 系 统 的 安全 策略 也 略 有 修改 。 例 如 ， 安 全 数据 库 系 统 的 写 策 略 经 过 修改 被 声明 为 ， 如 
果 主 体 的 级 别 与 客体 级 别 相 同 ， 则 主体 对 客体 具有 写 访问 。 由 于 数据 库 系 统 强制 执行 数 
据 之 间 的 关系 并 专注 于 语义 ， 因 此 存在 额外 的 安全 性 问题 。 例 如 ， 可 以 基于 内 容 、 上 下 
文 和 时 间 对 数据 进行 分 类 。 进 行 多 个 查询 ， 并 从 合法 响应 中 推断 出 敏感 信息 的 问题 受到 
关注 。 这 个 问题 现在 被 称 为 推理 问题 。 此 外 ， 人 们 所 进行 的 研究 不 仅仅 在 确保 关系 系统 
安全 上 ， 而 且 在 对 象 系统 以 及 分 布 式 系统 等 方面 也 进行 了 研究 。 

计算 机 网 络 的 研究 始 于 20 世纪 70 年 代 末 ,一 直 持 续 到 20 世纪 80 年 代 甚 至 更 久 。 
网 络 协议 被 扩展 到 纳入 安全 特性 。 其 结果 是 安全 的 网 络 协 议 的 产生 。 这 些 协议 包括 读 、 
写 、 发 送 和 接收 消息 。 由 于 网 络 和 Web 的 出 现 ， 加 密 和 密码 学 的 研究 引起 大 量 关注 。 
针对 独立 系统 的 安全 性 扩展 到 分 布 式 系 统 。 这 些 系统 包括 分 布 式 数据 库 和 分 布 式 操作 系 
统 。 许 多 分 布 式 系统 的 研究 现在 集中 在 保护 网 络 上 ， 称 为 Web 安全 ， 也 有 些 研究 集中 
于 保护 系统 ， 如 分 布 式 对 象 管理 系统 。 

随 着 新 系统 的 出 现 ， 如 数据 仓库 、 协 同 计 算 系 统 、 多 媒体 系统 和 代理 系统 等 ， 这 些 
系统 的 安全 性 将 会 得 到 研究 。 随 着 万 维 网 的 出 现 ， 安 全 不 仅 受 到 政府 机 构 的 重视 ， 而 且 
也 受到 商业 机 构 的 重视 。 随 着 电子 商务 的 出 现 ， 更 重要 的 是 要 保护 公司 的 知识 产权 。 图 
3.4 说 明了 各 种 类 型 的 安全 系统 。 
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安全 的 数据 库 






安全 的 分 
布 式 系统 





安全 的 网 络 











3.2.4 安全 操作 系统 
操作 系统 的 安全 工作 在 20 











Al3.4 安全 系统 类 型 


世纪 60 年 代 和 70 年 代 广 泛 开 展 。 随 着 Windows, Linux 




















和 其 他 产品 等 新 型 操作 系统 的 出 现 ， 研 究 仍 在 继续 。 早 期 的 想法 包括 访问 控制 列表 和 以 
权限 为 基础 的 系统 。 访 问 控制 列表 指定 进程 的 访问 类 型 ， 其 中 进程 叫 主 体 ， 文 件 叫 客 
体 。 访 问 通常 是 读 写 访问 。 权 限 列 表 是 一 个 进程 必须 具备 访问 系统 中 某 些 资源 的 权限 。 
例如 ， 具 有 特定 权限 的 进程 可 以 写 和 内存 的 某 些 部 分 。 

操作 系统 强制 安全 工作 开始 于 Bell LaPadula 安全 模型 ， 它 有 两 个 属性 : 



























































简单 的 安全 属性 规定 ， 如 遇 
取 访 问 权 。 


主体 的 安全 级 别 高 于 客体 的 级 别 ， 主 体 就 有 对 客体 的 读 





当主 体 的 安全 级 别 低 于 客体 时 ，* 属性 〈 称 为 星 属 性 ) 规定 主体 对 客体 有 写 和 信访 


问 权 。 

















从 那 时 起 ， 提 出 了 该 模型 的 演进 以 及 称 为 无 干扰 
































无 干扰 模型 基本 上 是 更 高 级 别 
别 的 进程 。 


模型 的 流行 模型 (参见 本 章 参 考 文献 [GOGUS2] Jo 文件 访问 控制 


的 进程 不 会 干扰 较 低 级 





像 微软 这 样 的 公司 正 投入 大 量 资源 以 确保 其 产品 


安全 。 我 们 通常 会 听 到 各 种 操 





客 试图 非法 进入 操作 系统 ， 尤 其 是 那些 具有 网 络 功能 安全 的 
的 操作 系统 。 因 此 ， 这 是 未 来 几 年 将 持续 受到 关注 的 操作 系统 





一 个 领域 。 这 是 因为 包括 数据 
程序 通常 托管 在 操作 系统 上 。 











作 系 统 的 漏洞 ， 以 及 黑 














库 系 统 在 内 的 许多 应 用 
因此 ， 如 果 操作 系统 被 。 图 3.5 安全 操作 系统 























破坏 ， 则 可 能 会 影响 整个 计算 系统 。 图 3. 5 说 明了 操作 系统 安全 性 的 一 些 主 要 方面 。 


3.2.5 安全 数据 库 系 统 








数据 库 的 自主 安全 性 工作 始 于 20 世纪 70 年 代 ，IBM Almaden 研究 中 心 对 R 系统 进 
行 了 安全 性 人 研究。 本质 上 ， 安 全 属性 指定 用 户 可 能 对 关系 、 属 性 和 数据 元 素 具 有 的 读 取 
和 写 入 访问。 后 来 ， 在 关系 系统 ( 见 本 章 参 考 文献 [GRIF76]) 中 提出 了 查询 修改 等 技 














术 ， 用 于 访问 控制 。 在 20 世纪 























80 年 代 和 90 年 代 ， 对 对 象 系统 进行 了 安全 问题 的 研究 。 
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Hon AY 22 mk) 



































j 来 指定 用 户 对 对 象 、 实 例 变 量 和 类 的 访问 。 除 了 读 写 访问 之 外 ， 针 对 
执行 访问 的 方法 也 进行 了 说 明 ( 见 本 章 参考 文献 [FERN81] ) 。 


自 20 世纪 80 年 代 初 以 来 ， 大 部 分 焦点 集中 在 多 层次 的 安全 数据 库 管 理 系统 (ILA 
曹参 考 文献 [ AFSB83 ] ) 。 这 些 系统 基本 上 执行 3. 2. 2 节 中 讨论 的 强制 性 策略 与 在 3. 3 


节 中 描述 的 修改 策 
世纪 80 年 代 以 来 ， 
和 Thuraisingham 对 一 些 发 











例 包 括 由 SRI 国 








型 ) 。 这 些 扩展 





El 
AE 




















际 提供 的 SeaView 模型 或 者 由 霍 尼 3 
具有 安全 属性 的 关系 模型 。 设 计 一 个 用 











竹 〈 即 可 以 读 取 较 低 或 同等 级 别 则 ， 写 同等 级 别 的 安全 策略 ) 。 自 20 
































已 经 开发 了 多 层次 数据 库 系 统 的 各 种 设计 、 原 型 和 商业 产品 。Ferrari 
展 进 行 了 详细 调查 ( 见 本 章 参 考 文献 [FERR00] ) 。 其 中 的 示 
5 尔 提供 的 加 锁 数据 视图 (LDV 模 
户 在 不 同安 全 级 别 看 到 不 同 的 








值 的 模型 是 一 个 挑战 。 例 如 ， 在 未 分 类 级 别 的 雇员 的 工资 可 能 是 2 万 元 ， 而 在 机 密级 别 





的 雇员 的 工资 可 能 是 5 万 元 。 在 标准 





确 的 值 。 


我 们 注意 到 ， 其 他 类 型 的 数据 库 系统 的 多 级 安全 怕 
括 对 象 数 据 库 系统 的 安全 
定 读 取 、 写 和 信和 方法 执行 策略 。 在 安全 并 发 控 























E 关 系 模型 中 ,， H 


"E ( 见 本 章 参 考 文献 























H 于 完整 性 属性 ， 不 能 表示 这 些 不 明 


FE 也 取得 了 一 些 重大 进展 。 这 些 包 
[THUR89 ] ) 。 在 此 功能 中 ， 安 全 属性 指 






































tll FUR 32 Ty É 











i 也 进行 了 大 量 工作 。 这 里 的 


想法 是 强制 执行 安全 属性 ， 并 满足 一 致 性 ， 而 且 不 会 有 隐蔽 通道 。 人 们 还 对 分 布 式 、 异 
构 和 联合 数据 库 系统 的 多 层次 安全 性 进行 了 研究 。 引 起 重视 的 男 一 个 领域 是 推理 问题 。 











有 关 推 理 问题 的 详细 内 容 ， 请 参考 本 章 参 考 文献 [THUR93 ] 





























。 对 于 安全 并 发 控制 ， 我 





们 参考 了 Atluri Bertino, Jajodia 等 人 的 众多 算法 (参见 本 章 参 考 文献 [ATLU97] ) 。 有 
关 分 布 式 和 异 构 数 据 库 安全 以 及 联盟 数据 库 安全 的 信息 ， 请 参见 本 章 参 考 文献 [THUR91 ] 


和 [THUR94]。 














随 着 数据 库 系统 变 得 越 来 越 复杂 ， 确 保 这 些 系统 的 安全 将 变 得 越 来 越 困 难 。 目 前 的 
一 些 工作 重点 是 保护 数据 仓库 、 多 媒体 数据 库 和 网 络 数据 库 (参见 例如 IP 数据 库 安 





会 议 系列 会 议 录 ) 。 

















图 3.6 说 明了 各 种 类 型 的 安全 数据 库 系统 。 由 于 我 们 开发 的 许多 


云 实验 系统 开展 了 数据 管理 安全 工作 ， 所 以 我 们 将 在 附录 C 中 描述 数据 管理 安全 的 概 


念 和 技术 。 























安全 的 关 
系数 据 库 











图 3.6 


3.2.6 安全 的 网 络 
随 着 网 络 的 出 现 和 不 同 的 系统 与 应 用 之 间 互 连 ， 网 络 在 过 去 十 年 中 不 断 扩大 。 网 络 
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安全 的 分 布 


安全 
数据 库 系 统 


式 数据 库 


安全 数据 库 系 统 
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分 为 公共 网 络 、 私 有 网 络 、 分 类 网 络 和 未 分 类 的 网 络 。 我 们 经 常 听 到 网 络 被 病毒 和 蠕虫 
感染 的 情况 。 此 外 ， 网 络 也 正在 被 恶意 代码 和 未 经 授权 的 人 员 侵入 。 因 此 ， 网 络 安全 正 
在 成 为 信息 安全 的 主要 领域 之 一 。 

我 们 已 经 提出 了 用 于 网 络 安全 的 各 种 技术 。 加 密 和 密码 应 用 仍然 占 主导 地 位 的 研 
究 。 关 于 各 种 加 密 技 术 的 讨论 ， 大 家 可 以 参考 本 章 参考 文献 [HASS00] 。 数 据 挖掘 技术 















































正在 广泛 应 用 于 入 侵 检 测 (参见 本 章 

参考 文献 [NING04] ) 。 在 网 络 协议 安 esl sae 
全 性 方面 也 有 很 多 工作 ， 其 中 安全 性 

被 并 入 到 各 个 层 中 ,诸如 网 络 层 、 传 | 

输 层 和 会 话 层 的 协议 栈 (参见 本 章 参 

考 文献 [TANN90]) 。 核 查 和 验证 技术 

也 正在 研究 用 于 保护 网 络 。 人 们 还 出 FERNE 

版 了 关于 这 个 主题 的 各 种 书籍 (参见 

本 章 参 考 文献 [KAUFO2]), [3.7 说 图 3.7 安全 的 网 络 
明了 网 络 安 全 技术 。 


3.2.7 新 兴 趋 势 


在 20 世纪 90 年 代 中 期 ， 系统 安全 的 研究 扩展 到 新 兴 系 统领 域 。 这 些 包括 协作 计算 
系统 安全 、 多 媒体 计算 安全 和 数据 仓库 安全 。 同 时 ， 数 据 挖掘 技术 引起 了 新 的 安全 担 
忧 。 由 于 用 户 现在 可 以 访问 各 种 数据 挖掘 工具 ， 并 且 可 能 会 产生 人 敏感 关联 ， 这 可 能 会 加 
剧 推理 问题 的 严重 性 。 另 一 方面 ， 数 据 挖掘 也 可 以 帮助 诸如 入 侵 检测 和 审计 等 安全 问题 。 

网 络 的 到 来 使 得 数字 图 书馆 和 电子 商务 安全 得 到 广泛 发 展 。 除 了 开发 精细 的 加 密 技 
术 ， 安 全 研究 还 侧重 于 保护 Web 客户 端 以 及 服务 器 。Java 等 编程 语言 的 设计 考虑 了 安 
全 性 。 同 时 ， 人 们 还 对 安全 代理 进行 了 大 量 研究 。 

分 布 式 系统 安全 研究 侧重 于 分 布 式 对 象 管理 系统 的 安全 性 。OMG 等 组 织 研究 了 安 
全 属性 ( 见 本 章 参考 文献 【[OMC] ) 。 因 此 ， 我 们 现在 拥有 商用 的 安全 的 分 布 式 对 象 管 


理 系统 。 图 3. 8 说 明了 各 种 新 兴 的 安全 系统 和 概念 。 
协作 系统 安全 | | 多 媒体 系统 安全 | | 数字 图 书馆 安全 | | 电子 商务 安全 


新 兴 的 安全 系统 


图 3.8 新 兴 的 安全 系统 和 概念 
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(1 ) 去 计算 开发 与 安全 


— 


3.2.8 网 络 的 影响 


网 络 的 出 现 极 大 地 影响 了 安全 性 。 现 在 安全 性 是 主流 计算 的 一 部 分 。 政 府 机 构 和 商 
业 机 构 担心 安全 。 例 如 ， 在 金融 交易 中 ， 如 果 不 保持 安全 性 ， 则 可 能 会 损失 数 百 万 美 
元 。 随 着 网 络 的 发 展 ， 很 容易 获取 个 人 的 各 种 信息 ， 因 此 隐私 可 能 会 受到 侵犯 。 

为 了 保护 网 络 ， 目 前 已 经 提出 了 许多 安全 解决 方案 。 除 了 加 密 ， 重 点 是 保护 客户 端 
以 及 服务 器 的 安全 。 也 就 是 说 ， 必 须 保 证 端 对 端的 安全 。 网 络 安全 也 对 电子 商务 有 影 
响 。 也 就 是 说 ， 当 一 个 人 在 网 络 上 进行 交易 时 ， 保 证 安全 是 至 关 重 要 的 。 信 用 卡号 码 和 
社会 保险 号 码 等 信息 也 必须 要 得 到 保护 。 

上 述 各 节 讨 论 的 所 有 安全 问题 都 必须 在 网 络 上 考虑 。 例 如 ， 必 须 制 定 适 当 的 安全 策 
略 。 这 将 是 一 个 挑战 ， 因 为 没有 人 拥有 整个 网 络 。 包 括 安全 的 操作 系统 、 安 全 的 数据 库 
系统 ， 安 全 的 网 络 和 安全 的 分 布 式 系 统 在 内 的 各 种 安全 系统 可 以 集成 在 网 络 环境 中 。 因 
此 ， 这 个 集成 系统 必须 是 安全 的 。 由 于 各 种 数据 挖掘 工具 的 推出 ， 推 理 和 隐私 等 问题 可 
能 会 加 剧 。 在 某 些 情况 下 ， 和 需要 在 安全 性 和 其 他 功能 之 间 进 行 取 舍 。 也 就 是 说 ， 服 务 质 
量 是 一 个 重要 的 考虑 因素 。 除 了 技术 解决 方案 ， 法 律 方面 还 有 竺 研究。 也 就 是 说 ， 律 师 
和 工程 师 必 须 一 起 工作 。 虽 然 在 网 络 安全 方面 取得 了 很 大 进展 ， 但 是 随 着 网 络 技术 的 进 
步 ， 仍 还 有 很 多 工作 要 做 。 图 3. 9 显示 了 网 络 安全 性 的 各 个 方面 。 有 关 网 络 安全 的 讨 


论 ， 请 参阅 本 章 参考 文献 [GHOS98], 
spe " 安全 的 安全 支 















































































































































图 3.9 网 络 安全 








3.2.9 构建 安全 系统 的 步骤 


在 本 节 中 ， 我 们 将 概述 构建 安全 系统 的 步 又。 请 注意 ， 我 们 的 讨论 是 一 般 性 的 ， 适 
用 于 任何 安全 系统 。 但 是 ,我们 可 能 需要 调整 各 个 系统 的 某 些 步 又。 例如 ， 要 构建 安全 
的 分 布 式 数据 库 系 统 ， 需 要 安全 的 数据 库 系统 以 及 安全 的 网 络 。 因 此 ， 必 须 由 多 个 系统 
组 成 。 

构建 安全 系统 的 第 一 步 是 制定 安全 策略 。 该 策略 可 以 用 非 形式 语言 表达 ， 然 后 形式 
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化 。 该 策略 基本 上 规定 了 系统 必须 满足 的 规则 。 
那么 必须 开发 安全 架构 ， 架 构 将 包括 安全 关键 
组 件 。 这 些 是 执行 安全 策略 的 组 件 ， 因 此 应 该 
被 信任 。 下 一 步 是 设计 系统 。 例 如 ， 如 果 系 统 
是 数据 库 系 统 ， 则 设计 查询 处 理 器 、 事 务 管理 
器 、 存 储 管理 需 和 元 数据 管理 器 模块 。 同 时 必 
须 分 析 系 统 的 设计 漏洞 。 下 一 阶段 是 开发 阶段 。 
一 旦 系统 实施 ， 它 必须 进行 安全 测试 。 这 包括 
设计 测试 用 例 并 确保 不 违反 安全 策略 。 此 外 ， 
根据 系统 预期 的 安全 级 别 ， 可 以 使 用 形式 验证 
技术 来 验证 和 确认 系统 。 最 后 ， 系 统 将 准备 好 进 
行 评估 。 请 注意 ， 最 初 的 系统 要 使 用 可 信 计 算 机 
系统 评估 标准 ( 见 本 章 参 考 文献 [TCSE85]) 进 
行 评 佑 。 有 关 网 络 标准 的 解释 在 本 章 参 考 文献 
[TNI87] ， 数 据 库 标 准 的 解释 在 本 章 参 考 文献 
[TDI91]。 此 外 ,还 可 以 使 用 诸如 审计 和 推理 
控制 等 各 种 概念 的 几 个 相关 文档 。 请 注意 ， 还 
制定 了 一 些 其 他 标准 ， 包 括 20 世纪 90 年 代 的 
联邦 标准 和 21 世纪 初 的 通用 标准 。 

我 们 还 要 注意 的 是 ， 在 系统 安装 于 操作 环 
境 之 前 ， 需 要 给 出 环境 操作 的 概念 。 还 必须 进 
行 风险 评估 。 一 旦 安装 了 系统 ， 就 必须 对 其 进 
行 监控 ， 以 便 检 测 到 包括 未 经 授权 的 人 侵 等 安 
全 违规 。 图 3. 10 说 明了 构建 步 又。 构建 安全 系 
统 的 概述 可 在 本 章 参 考 文献 [GASS88 ] 中 
找到 。 






















































































3.3 可 靠 的 系统 


3.3.1 简介 
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图 3. 10 ”构建 安全 系统 的 步骤 


正如 我 们 在 1. 2. 2 节 讨 论 的 那样 ， 我 们 的 可 靠 性 指 的 是 如 信任 、 隐 私 、 功 能 的 完整 


性 、 数 据 的 质量 和 来 源 以 及 权限 管理 等 特征 。 我 们 已 经 分 离 了 保密 怕 
的 一 部 分 。 因 此 ， 可 靠 的 系统 基本 上 包括 安全 系统 和 可 靠 系统 (请 注意 ， 





的 定义 ) 。 











无 论 是 我 们 正在 讨论 的 安全 性 、 完 整 性 、 隐 私 、 信 任 ， 还 是 讨论 的 权限 管理 ， 总 是 





要 涉及 成 本 。 那 就 是 说 ， 我 们 执行 安全 、 隐 私 和 信任 的 成 本 是 多 少 ? 是 否 可 以 实施 一 些 


E， 并 将 其 作为 安全 


这 不 是 标准 
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©) 去 计算 开发 与 安全 


— 








精细 的 隐私 策略 和 信托 管理 策略 (例如 ， 健 康信 息 便 携 性 和 责任 法 案 的 隐私 策略 )? 除 
了 让 律师 和 策略 制定 者 与 技术 人 员 联 系 起 来 ,我们 还 需要 引进 经 济 学 家 的 看 法 。 需 要 进 
行经 济 方面 的 权衡 ， 以 实施 安全 、 隐 私 、 pum eo meet 
的 、 保 障 隐私 的 、 可 信任 的 和 拥有 权限 管理 的 灵活 策略 。 关 于 经 济 对 安全 的 影响 的 讨 
论 ， 我 们 可 以 参考 本 章 参 考 文献 [NSF03 ] 。 

在 本 节 ， 我 们 将 讨论 可 靠 性 的 各 个 方面 。3. 3.2 节 将 讨论 信任 问题 。3. 3. 3 节 讨 论 
数字 版 权 管理 。3. 3. 4 节 讨 论 隐 私 。 完 整 性 问题 、 数 据 质量 和 数据 来 源 在 3. 3.5 节 讨 论 。 
图 3.11 说 明了 可 靠 性 的 几 个 方面 。 


数字 版 完整 性 和 实时 处 理 
权 管 理 数据 质量 和 容错 性 


图 3.11 可 靠 性 的 几 个 方面 










































































3. 3.2 信任 管理 


信任 管理 是 关于 管理 一 个 个 体 或 群体 拥有 的 对 其 他 人 的 信任 。 也 就 是 说 ， 若 一 个 用 
户 有 访问 数据 的 权限 ， 我 就 信任 他 并 给 他 发 送 数据 吗 ? 用 户 可 能 拥有 许可 或 拥有 证 书 ， 
但 他 可 能 不 值得 信赖 。 信 和 任 由 用 户 的 行为 形成 。 用 户 可 能 违反 了 信誉 或 进行 了 一 些 不 恰 
当 的 行为 。 因 此 ， 我 可 以 不 信任 该 用 户 。 现 在 ， 即 使 我 不 信任 约翰 ， 而 简 信任 约翰 ， 她 
也 可 以 和 约翰 分 享 她 的 资料 。 也 就 是 说 ， 约 坦 对 吉姆 来 说 可 能 不 值得 信赖 ， 但 他 可 能 对 
aM 
问题 是 我 们 如 何 实施 信任 ? 我 们 可 以 部 分 信任 某 人 吗 ? 我 们 在 同一 时 间 可 以 对 约翰 
人 SL ER 那么 我 们 可 以 分 享 一 
些 信息 吗 ? 我 们 如 何 信任 我 们 从 比尔 收 到 的 数据 ? 也 就 是 说 ， 如 果 我 们 不 信任 比尔 ， 那 
我 们 可 以 相信 他 给 我 们 的 数据 吗 ? 信任 管理 系统 以 及 信任 协商 系统 方面 已 经 有 了 很 多 成 
果 。 温 斯 莱特 等 人 开展 了 广泛 的 工作 ,制定 了 信任 的 规范 语言 ， 以 及 设计 了 信任 协商 系 
统 ( 见 本 章 参 考 文献 [YU03 ] ) 。 问 题 是 双方 如 何 协商 ? 如 果 B 与 A 共享 数据 C， 则 A 
可 以 与 B 共享 数据 D。 如 果 B 不 与 F 共享 此 数据 ， 则 A 可 以 与 B 共享 数据 D。 有 许多 这 
样 的 规则 可 以 强制 执行 ， 这 里 的 困难 是 开发 一 个 一 致 执行 信任 规则 或 策略 的 系统 。 


3.3.3 数字 版 权 管理 


与 信任 管理 密切 相关 的 是 管理 数字 版 权 。 这 个 领域 已 经 被 称 为 数字 版 权 管 理 (Dig- 
ital Rights Management, DRM) 。 这 对 于 娱乐 应 用 尤其 重要 。 谁 拥有 视频 或 录音 的 版 权 ? 
28 
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权利 如 何 传播 ?如 果 侵 犯 了 权利 ， 会 发 生 什么 ?也 就 是 说 ， 我 可 以 在 网 络 上 传播 受 版 权 
保护 的 电影 和 音乐 吗 ? 

我 们 听 到 很 多 关于 Napster 和 类 似 组 织 的 争议 。DRM 是 技术 问题 还 是 法 律 问题 ? 技 
术 专 家 、 律 师 和 策略 制定 者 如 何 共同 合作 ， 才 能 妥善 管理 权利 ? 关于 DRM 的 大 量 文章 、 
商讨 和 争论 ， 本 章 参考 文献 [DRM] 就 是 一 个 有 用 的 信息 源 。 


3.3.4 隐私 


隐私 是 关于 保护 有 关 个 人 的 信息 。 此 外 ,个 人 可 以 向 Web 服务 提供 商 指 定 可 以 被 
开放 的 关于 他 或 她 的 信息 。 过 去 已 经 对 隐私 进行 了 大 量 的 讨论 ， 特 别 是 在 保护 患者 的 医 
疗 信息 方面 。 社 会 科学 家 和 技术 专家 一 直 致 力 于 隐私 问题 。 

隐私 在 近年 来 受到 了 极 大 的 关注 。 这 主要 是 因为 网 络 、 语 义 Web 、 反 芍 和 国家 安全 
的 需要 。 例 如 ， 为 了 提取 关于 各 种 个 人 的 信息 ， 预 防 并 发 现 潜在 的 铠 怖 袭击 ， 需 要 检查 
Bete da T. 具 。 我 们 听 到 很 多 关于 国家 安全 与 媒体 的 隐私 ， 这 主要 是 因为 人 们 现在 意识 
到 要 解决 恐怖 主义 的 问题 ， 政 府 可 能 需要 收集 有 关 个 人 的 数据 ， 并 挖掘 数据 来 提取 信 
息 。 数 据 可 能 在 关系 数据 库 中 ， 也 可 能 在 文本 、 视 频 和 图 像 中 。 这 正在 引起 各 种 公民 自 
由 工会 的 重大 关切 (参见 本 章 参考 文献 [THUR03 ] ) 。 因 此 ， 技 术 人 员 、 决 策 者 、 社 会 
科学 家 和 律师 正在 共同 努力 ， 提 供 解决 隐私 权 被 侵犯 的 方案 。 


3.3.5 完整 性 、 数 据 质 量 和 高 度 保障 


完整 性 是 关于 维持 数据 以 及 相关 进程 的 准确 性 。 数 据 的 准确 性 被 作为 数据 质量 的 一 
itt 讨论。 进程 的 完整 性 是 确保 进程 没有 被 破坏 。 例 如 ， 我 们 需要 确保 进程 不 是 恶 
旦 。 由 于 未 经 授权 的 修改 ， 恶 意 进程 可 能 会 损坏 数据 。 为 了 确保 完整 性 ， 必 须 对 软 
行 测试 和 验证 ， 以 开发 高 保障 系统 。 

pe x Ed as 整 性 约束 来 确保 完整 性 (例如 ， 工 资 值 必须 是 正 数 )， 以 
及 在 多 个 进程 访问 数据 时 确保 数据 的 正确 性 。 为 了 实现 正确 性 ， 我 们 执行 并 发 控制 等 技 
术 。 这 个 想法 是 强制 执行 适当 的 锁 程 序 ， 以 便 多 个 进程 不 会 同时 访问 数据 并 损坏 数据 。 

数据 质量 是 确保 数据 的 准确 性 。 数 据 的 准确 性 可 能 取决 于 谁 触及 了 数据 。 例 如 ， 如 
果 数 据 源 不 可 信 ， 则 数据 质量 值 可 能 较 低 ， 实 际 上 一 些 质量 值 被 分 配给 每 一 块 的 数据 。 
当 数 据 组 成 时 ， 质 量 值 被 分 配 到 数据 中 ， 从 而 使 得 到 的 值 是 原始 数据 的 质量 值 的 函数 。 

数据 来 源 技 术 也 决定 了 数据 的 质量 。 请 注意 ， 数 据 来 源 是 关于 维护 历史 数据 的 。 这 
将 包括 诸如 访问 数据 以 进行 读 / 写 目的 的 信息 。 然 后 根据 这 个 历史 记录 ， 可 以 为 数据 分 
配 质量 值 ， 并 确定 数据 何 时 被 误 用 。 

其 他 密切 相关 的 话题 包括 实时 处 理 和 容错 。 实 时 处 理 是 关于 符合 时 序 约 束 的 过 程 。 
例如 ， 如 果 我 们 要 获得 股票 报价 来 购买 股票 ， 这 时 就 需要 实时 获取 信息 。 如 果 信 息 到 达 
后 但 交易 平台 在 当天 已 经 关闭 营业 ， 则 无 济 于 事 。 类 似 地 ， 实 时 处 理 技术 也 必须 确保 数 
据 是 最 新 的 。 获 得 昨天 的 股票 报价 不 足以 做 出 明智 的 决定 。 容 错 性 是 确保 进程 从 故障 中 
恢复 的 。 故 障 可 能 是 发 生意 外 情况 或 恶意 的 。 在 出 现 故障 的 情况 下 ， 如 果 进 程 中 止 ， 则 
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() 二 计算 开发 与 安全 
必须 重新 执行 进程 的 操作 。 

请 注意 ， 为 了 构建 高 保障 系统 ， 我 们 需要 一 个 系统 来 处 理 故 障 ， 需 要 的 系统 是 安全 
的 并 且 可 处 理 实时 约束 。 我 们 在 本 章 参 考 文献 [THUR05a] 中 已 经 讨论 过 ， 实 时 处 理 
和 安全 是 互相 冲突 的 目标 。 例 如 ， 亚 意 进 程 可 以 使 系统 错过 关键 的 时 序 约束 。 此 外 ， 为 
了 执行 所 有 访问 控制 检查 ， 一 些 进 程 可 能 会 错过 最 后 的 调度 。 因 此 ， 我 们 需要 的 是 灵活 
的 策略 ， 这 些 策 略 将 决定 哪些 方面 对 特定 情况 至 关 重 要 。 


3.4 ”安全 威胁 和 解决 方案 


近年 来 ， 我 们 听 到 很 多 关于 病毒 和 特洛伊 木马 扰乱 网 络 活动 的 信息 。 这 些 安全 威胁 
和 违规 行为 给 企业 造成 了 数 百 万 美元 的 损失 。 最 近 身 份 贸 取 的 行为 也 非常 独 狐 。 此 外 ， 
还 发 生 未 经 授权 的 和 人 侵 、 推 理 问题 和 侵犯 隐私 问题 。 在 本 节 中 ， 我 们 将 介绍 其 中 的 一 些 
威胁 。 本 章 参 考 文献 [ GHOS98] 中 也 提供 了 对 这 些 威胁 的 很 好 的 介绍 。 在 本 章 ， 我 们 
将 讨论 一 些 正 在 提出 的 安全 威胁 和 解决 方案 。 图 3. 12 说 明了 这 些 威胁 。 



























































T 











完整 性 违规 | | 诈骗 | 破坏 


拒绝 服务 /基础 机 密 性 、 认 证 、 
设施 攻击 不 可 否认 性 违规 


图 3. 12 安全 威胁 


























身份 验证 违规 : 密码 可 能 被 盗 ， 这 可 能 会 导致 认证 违规 。 人 们 可 能 需要 有 多 个 密码 
和 关于 用 户 的 其 他 信息 来 解决 这 个 问题 。 人 们 正在 采用 生物 特征 和 其 他 技术 来 处 理 身份 
验证 违规 问题 。 

不 可 和 否认 性 : 一 个 消息 的 发 送 者 很 可 能 会 否认 他 已 发 送 的 消息 。 不 可 否认 的 技术 将 
确保 可 以 跟踪 发 送 方 的 消息 。 如 今 跟踪 消息 的 所 有 者 并 不 困难 。 但 是 ， 跟 踪 访 问 该 网 页 
的 人 是 不 容易 的 。 也 就 是 说 ， 尽 管 已 经 在 分 析 网 络 日 志 上 取得 了 进步 ， 但 仍 难以 确定 访 
问 网 页 的 用 户 的 确切 位 置 。 
特洛伊 木马 和 病毒 : 特洛伊 木马 和 病毒 是 可 能 导致 各 种 攻击 的 恶意 程序 。 事 实 上 ， 
本 节 讨 论 的 许多 威胁 都 可 能 是 由 特洛伊 木马 和 病毒 造成 的 。 病 毒 可 以 从 机 器 传播 到 机 
器 ， 并 且 可 以 删除 各 种 计算 机 中 的 文件 。 特 洛 伊 木马 可 能 会 将 信息 从 较 高 级 别 的 用 户 汇 
露 给 较 低级 别 的 用 户 。 人 们 已 经 开发 了 杀毒 软件 ， 并 且 现 在 可 以 购买 。 

破坏 : 我 们 经 常 听 说 黑客 人 侵 系统 并 发 布 虚假 信息 。 例 如 ， 关 于 各 种 政府 网 页 被 破 
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坏 的 一 些 信 息 在 本 章 参考 文献 [CHOS98] 中 有 报道 。 只 需要 损坏 一 个 服务 器 、 客 户 端 
或 网 络 ， 这 些 问 题 就 会 波及 多 台 机 器 。 
诈骗 : 由 于 大 量 的 商业 和 贸易 在 网 络 上 毫 无 控制 地 进行 ， 互 联网 诈骗 可 能 会 导致 企 
业 损 失 数 百 万 美元 。 和 人 侵 者 可 以 获得 合法 用 户 的 身份 ， 并 通过 伪装 可 以 清空 银行 账户 。 
拒绝 服务 和 基础 设施 攻击 : 我 们 听 说 过 黑客 正在 摧毁 基础 设施 。 基 础 设施 可 以 是 电 
信 系 统 、 电 力 系统 或 供暖 系统 。 这 些 系统 通常 通过 网 络 并 由 计算 机 进行 控制 。 这 种 攻击 
将 导致 拒绝 服务 。 
自然 灾害 : 除了 慌 怖 主义 ， 计 算 机 和 网 络 也 容易 遭受 诸如 飓风 、 地 震 、 火 灾 等 自然 
灾害 。 数 据 必须 得 到 保护 ， 数 据 库 必须 从 灾难 中 恢复 。 在 某 些 情况 下 ， 自 然 灾 害 的 解决 
办 法 与 慌 怖 袭击 造成 的 威胁 相似 。 例 如 ， 使 用 容错 处 理 技术 来 恢复 数据 库 。 另 外 ， 风 险 
分 析 技 术 也 可 能 包含 损害 。 
访问 控制 违规 传统 的 访问 控制 违规 行为 可 以 扩展 到 网 络 。 用 户 可 能 通过 网 络 访问 
未 经 授权 的 数据 。 请 注意 ， 在 网 络 中 ， 存 在 许多 的 数据 ， 控 制 对 这 些 数据 的 访问 将 是 一 
个 相当 大 的 挑战 。 
诚信 违规 : 网 络 上 的 数据 可 能 会 受到 未 经 授权 的 修改 。 此 外 ， 数 据 可 能 来 自任 何 地 
方 ， 而 且 数 据 的 生产 者 可 能 不 值得 信赖 。 这 样 可 以 更 容易 地 破坏 数据 。 不 正确 的 数据 可 
能 会 导致 严重 损失 ， 例 如 不 正确 的 银行 账户 ， 这 可 能 导致 错误 的 交易 。 
保密 违规 : 安全 性 包括 机 密 性 和 完整 性 。 也 就 是 说 ， 机 密 数 据 必 须 受 到 保护 ， 并 且 
不 会 被 清除 。 需 要 对 数据 库 的 使 用 进行 统计 ， 以 防止 违规 行为 发 生 。 
真实 性 违规 : 这 是 一 种 数据 完整 性 违规 的 形式 。 例 如 ， 考 虑 发 布 商 、 订 阅 者 和 所 有 
者 的 情况 。 用 户 将 订阅 各 种 杂志 ， 业 主创 办 杂志 (电子 版 )， 作 为 第 三 方 的 出 版 者 将 发 
行 杂 志 。 如 果 出 版 商 不 值得 信任 ， 他 可 以 改变 杂志 的 内 容 。 这 违反 了 文件 的 真实 性 。 所 
VA, 需要 通过 采取 各 种 解决 方案 以 确定 文件 的 真实 性 (参见 本 章 参 考 文献 
[ BERT04] ) ， 这 些 包括 加 密 和 数字 签名 。 
侵犯 隐私 : 通过 网 络 可 以 获得 被 收集 的 关于 个 人 的 各 种 信息 。 另 外 ， 利 用 数据 挖掘 
工具 和 其 他 分 析 工 具 ， 可 以 对 个 人 信息 进行 各 种 未 经 授权 的 关联 分 析 。 
推理 问题 : 推论 是 冒充 查询 ， 并 从 合法 响应 中 推导 未 经 授权 的 信息 的 过 程 。 事 实 
E, 我们 认为 隐私 问题 是 一 种 推理 问题 的 形式 。 处 理 推理 问题 的 许多 解决 方案 已 经 被 提 
出 ， 包 括 约 束 处 理 和 概念 结构 的 使 用 。 我 们 在 3.5 节 将 对 其 中 一 些 方 案 进 行 讨论 。 
身份 盗窃 : 这 几 天 我 们 听 到 很 多 关于 身份 被 窃取 的 信息 。 小 偷 得 到 一 个 社会 保障 号 
码 ， 从 那里 可 以 窃取 个 人 的 银行 账户 。 在 这 里 ， 小 偷 变 身 为 合法 业主 ， 他 现在 拥有 许多 
关于 业主 的 关键 信息 。 这 是 一 个 非常 难以 处 理 和 管理 的 威胁 。 可 行 的 解决 方案 尚 待 开 
发 。 数 据 挖掘 有 望 解决 这 个 问题 ,但 可 能 技术 还 不 够 成 熟 。 
内 部 问题 ， 内 部 威胁 被 认为 是 相当 普遍 和 相当 危险 的 。 在 这 种 情况 下 ， 人 们 永远 都 不 
知道 慌 师 分 子 是 谁 。 他 们 可 能 是 数据 库 管 理 员 或 任何 被 公司 信任 的 人 。 单 独 的 背景 检查 可 
能 无 法 检测 内 部 威胁 。 对 此 ， 我 们 正在 提出 基于 角色 的 访问 控制 以 及 数据 挖掘 技术 。 
这 里 所 有 讨论 的 威胁 /攻击 加 上 各 种 其 他 网 络 安全 威胁 /攻击 统统 被 称 为 网 络 恐怖 主 
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《风云 计算 开发 与 安全 
义 。 网 络 恺 怖 主义 本 质 上 是 破坏 网 络 及 其 所 有 组 件 ， 使 敌人 或 对 手 的 系统 崩溃 。 目 前 ， 
美国 和 欧洲 各 国政 府 正在 投入 大 量 资金 ， 开 展 保护 网 络 和 防止 网 络 恐 怖 主义 的 研究 。 请 
注意 ， 一 般 意义 上 的 恐怖 主义 包括 网 络 恺 怖 主义 、 生 物 恺 怖 主义 和 对 人 身 安全 的 侵害 行 
为 ， 包 括 龙 炸 建筑 物 以 及 向 食物 和 水 源 投 毒 。 

为 了 处 理 这些 威 胁 ， 我 们 提出 了 各 种 各 样 的 解决 方案 ， 包 括 防火 墙 、 数 据 挖 据 、 加 
密 和 访问 控制 。 图 3.13 说 明了 解决 方案 。 解 决 方案 的 细节 在 本 章 参 考 文献 
[THUROS ] 、[ MASU11 ] [THUR93] 、 [DENN82 ] 和 [HASS00] 中 给 出 。 


安全 的 网 络 

数据 库 组 件 
安全 /隐私 基于 角色 
约束 处 理 的 访问 控制 


图 3.13 安全 性 问题 解决 方案 































容错 和 复制 


3.5 通过 不 可 信赖 的 组 件 构 建安 全 系统 


在 3.2 节 中 ， 当 我 们 讨论 构建 安全 系统 的 步 又 时 ， 提 出 了 端 到 端的 安全 性 。 也 就 是 
说 ， 我 们 的 论点 是 要 拥有 一 个 真正 安全 的 系统 ， 需 要 所 有 的 组 件 〈 例 如 操作 系统 、 数 
据 库 系统 、 网 络 和 应 用 程序 ) 都 是 安全 的 。 这 是 因为 人 们 可 以 设想 ， 安 全 系统 的 所 有 
组 件 将 通过 单个 组 织 来 构建 。 然 而 ， 由 于 全 球 化 ， 这 一 假设 已 经 不 再 可 行 。 这 意味 着 在 
组 件 上 不 安全 的 可 能 性 更 大 。 因 此 ， 设 计 师 面临 的 挑战 是 用 不 可 信 的 组 件 构建 安全 
系统 。 

在 最 近 ， 我 们 与 其 他 几 所 大 学 一 起 ， 对 用 不 可 信 组 件 构 建安 全 系统 进行 了 初步 研 
究 。 我 们 的 挑战 是 在 即使 操作 系统 可 能 被 损坏 的 情况 下 ， 也 可 设计 安全 的 应 用 程序 。 我 
们 的 成 果 在 本 童 参考 文献 [UTDIO] 中 提供 。 这 项 工作 也 适用 于 国防 部 的 任务 保障 。 他 
们 的 挑战 是 尽 可 能 长 时 间 地 持续 执行 任务 ， 尽 管 系统 可 能 会 遭 到 攻击 。 随 着 外 包 的 出 
现 ， 这 是 未 来 几 年 将 继续 扩大 和 发 展 的 话题 。 图 3. 14 说 明了 用 不 可 信 的 组 件 来 构建 安 
全 系统 包含 的 内 容 。 


不 可 信 的 应 用 程序 | 应 用 程序 = 
A E ES DBMS 

中 间 件 RE INTE uc ce ae 

不 可 信 的 操作 系统 ”| 操作 系统 (OS) (MI) EXON 





















































































































































不 可 信 的 VMM 虚拟 机 监视 器 (VMM) (虚拟 机 、 虚 拟 监视 器 ) N 
不 可 信 的 HW 硬件 (HW) (英特尔 安全 协 处 理 器 ) 

















图 3.14 用 不 可 信 的 组 件 构建 安全 系统 
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3.6 总结 和 展望 





本 章 简 要 介绍 了 可 信和 系统 的 发 展 情况 。 我 们 首先 讨论 了 安全 系统 ， 包 括 访问 控 





中 


的 基本 概念 以 及 自主 和 强制 性 策略 ， 安 全 系统 的 类 型 ， 如 安全 操作 系统 、 安 全 数据 库 、 
安全 网 络 和 新 兴 技 术 ， 网 络 的 影响 以 及 构建 安全 系统 的 步骤 。 接 下 来 ,我们 讨论 了 可 靠 的 
系统 ， 包 括 信任 、 权 限 、 隐 私 、 完 整 性 、 质 量 和 实时 处 理 方面 。 然 后 我 们 关注 了 安全 威胁 
和 解决 方案 的 各 个 方面 的 更 多 细节 。 最 后 ， 我 们 提供 了 使 用 不 可 信 组 件 来 保护 系统 的 概述 。 

我 们 虽然 在 可 靠 系 统 方面 取得 了 很 大 进展 ， 但 仍 有 很 多 工作 要 做 。 我 们 需要 研究 新 
兴 系 统 的 安全 性 ， 如 语义 Web 技术 和 服务 技术 。 此 外 ， 知 识 管理 系统 以 及 地 理 空 间 系 
统 的 安全 性 也 至 关 重 要 。 在 本 书 中 ， 我 们 将 重点 介绍 安全 服务 方面 。 如 第 1 章 所 述 ， 云 
计算 安全 将 安全 技术 与 云 计 算 技术 相 结合 。 由 于 安全 的 Web 服务 是 确保 云 计 算 安 全 的 






































基础 ， 我 们 将 在 本 书 的 第 二 部 分 讨论 安全 的 Web 服务 。 我 们 将 在 本 书 的 第 三 部 分 和 第 











四 部 分 中 描述 云 计算 技术 。 云 计算 安全 技术 和 系统 将 在 本 书 的 第 五 部 分 和 第 六 部 分 进行 
讨论 。 本 书 的 第 七 部 分 讨论 云 的 安全 性 应 用 ， 如 恶意 软件 检测 。 最 后 ， 本 书 的 第 八 部 分 





























将 讨论 云 的 信任 、 隐 私 和 完整 性 。 
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第 4 章 数据 、 信 息 和 知识 管理 


4.1 概述 





第 2 章 讨论 了 计算 系统 的 演进 ， 第 3 章 讨论 了 可 靠 系统 ， 本 章 将 讨论 数据 、 信 息 和 
知识 管理 中 的 一 些 基 本 概念 。 这 是 因为 我 们 对 云 实验 系统 工作 的 大 量 讨论 ， 是 基于 数 
据 、 信 息 和 知识 管理 的 安全 的 。 

人 们 给 出 了 数据 、 信 息 和 知识 的 多 种 定义 。 我 们 采用 的 定义 如 下 : 数据 是 指 由 数据 
库 管 理 的 数据 ， 信 息 是 从 数据 库 中 的 数据 中 提取 的 数据 ， 知 识 是 被 理解 的 信息 。 因 此 ， 
一 个 人 需 获 得 知识 才能 进行 活动 。 例 如 ，AA126 是 数据 。 当 我 们 说 美国 航空 航班 126 , 
我 们 从 数据 中 提取 了 信息 。 当 我 们 说 AA126 在 上 午 9 点 从 波士顿 到 达拉斯 ， 我 们 知道 
如 何 处 理 这 样 的 信息 ， 比 如 预订 机 票 。 

本 章 的 组 织 结构 如 下 : 764.2 7, 我们 将 讨论 数据 管理 ;信息 和 知识 管理 将 分 别 
在 4.3 节 和 4.4 节 中 讨论 ;活动 管理 如 电子 商务 和 信息 共享 将 在 4.5 节 讨 论 。4. 6 节 进 
行 本 章 总 结 。 应 该 指出 的 是 ， 本 章 讨论 的 概念 是 新 兴 主 题 大 数据 的 基础 。 因 此 ， 我 们 也 
在 4.6 节 对 大 数据 进行 了 简单 的 讨论 。 图 4. 1 说 明了 本 章 讨论 的 各 种 概念 。 


数据 、 信 息 
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图 4.1 数据 、 信 息 、 知 识 和 活动 管理 





4.2 数据 管理 


在 4.2.1 节 中 ,我 们 将 讨论 数据 库 管 理 ， 包 括 数 据 模 型 和 数据 库 功 能 ， 另 外 还 有 分 
布 式 数据 管理 和 Web 数据 管理 的 讨论 。 在 4.2.2 节 中 ,我们 将 讨论 复杂 的 数据 管理 ， 
包括 对 多 媒体 和 地 理 空间 数据 管理 的 讨论 。 


4.2.1 数据 管理 


4.2.1.1 数据 模型 
建立 数据 模型 的 目的 是 为 了 尽 可 能 准确 地 、 完 全 地 、 自 然 地 表达 它 所 捕获 的 世界 。 
35 

















©) 去 计算 开发 与 安全 























数据 模型 包括 层次 模型 、 网 络 模型 ， 关 系 模 型 、 实 体 关 系 模型 、 对 象 模型 和 基于 逻辑 的 
模型 。 关 系数 据 模 型 是 数据 库 系统 最 流行 的 数据 模型 。 使 用 关系 模型 ( 见 本 章 参考 文 
献 [CODD70] ) 的 数据 库 被 视 为 关系 的 集合 。 每 个 关系 表 中 都 有 属性 和 行 。 我 们 已 经 
提出 了 用 各 种 语言 来 操纵 关系 。 这 些 语言 中 值得 注意 的 是 ANSI 标准 SQL (结构 化 查询 
语言 ) 。 该 语言 用 于 访问 和 操作 关系 数据 库 中 的 数据 ( 见 本 章 参考 文献 [SQL3 ] ) X 
系数 据 模 型 的 详细 讨论 在 本 章 参考 文献 [DATE90] 和 [ULLM88] 中 给 出 。 
4.2.1.2 功能 

数据 库 管 理 系统 (Data Base Management System, DBMS) 的 功能 是 执行 其 操作 。 
DBMS 实际 上 管理 数据 库 ， 并 支持 用 户 能 够 查询 和 更 新 数据 库 。 因 此 ，DBMS 的 基本 功 


能 是 查询 处 理 和 更 新 处 理 。 在 某 些 应 用 程序 中 ， 例 如 银行 [| 
所 使 用 的 应 用 程序 中 ， 查 询 和 更 新 作为 交易 的 一 部 分 。 查询 处 理 器 | | 事务 处 理 器 


此 ， 事 务 管理 也 是 DBMS 的 另 一 个 功能 。 为 了 执行 这 些 功 
能 ， 必 须 维护 数据 库 中 的 数据 的 信息 。 该 信息 称 为 元 数 | 元 数据 管理 器 seu 
据 。 与 管理 元 数据 相关 的 功能 是 元 数据 管理 。 需 要 特殊 技 
术 来 管理 实际 存储 数据 的 存储 空间 。 与 管理 这 些 技 术 相 关 
的 功能 是 存储 管理 。 为 了 确保 上 述 功能 正确 执行 ， 并 使 用 
户 获取 准确 的 数据 ， 还 有 一 些 额 外 功能 。 这 包括 安全 管 
理 、 完 整 性 管理 和 故障 管理 ( 即 容 错 ) DBMS 的 功能 架 图 4.2 DBMS 架构 
构 如 图 4.2 所 示 ( 另 见 本 章 参 考 文 献 [ULLM88] ) 。 
4.2.1.3 数据 分 布 

如 本 章 参 考 文献 [CERIS4] 所 述 ， 分 布 式 数据 库 系 统 包 括 分 布 式 数据 库 管理 系统 
(DDBMS), 、 分 布 式 数据 库 和 互联 网 络 。DDBMS 管理 分 布 式 数 据 库 。 分 布 式 数据 库 是 分 
布 在 多 个 数据 库 中 的 数据 。 节 点 通过 通信 子 系统 连接 ， 本 地 应 用 程序 由 本 地 DBMS 处 
理 。 此 外 ， 每 个 节点 还 涉及 至 少 一 个 全 局 应 用 程序 ， 因 此 在 此 架构 中 没有 集中 控制 。 
DBMS 通过 称 为 分 布 式 处 理 器 的 组 件 连接 。 分 布 式 数据 库 系统 功能 包括 分 布 式 查 询 处 
理 、 分 布 式 事务 管理 、 分 布 式 元 数据 管理 ， 以 及 跨 多 个 节点 实施 安全 性 和 完整 性 。 语义 
Web 可 以 被 认为 是 大 型 分 布 式 数 据 库 。 
4.2.1.4 Web 数据 管理 

Web 数据 管理 研究 人 员 和 从 业者 面临 的 一 个 主要 挑战 是 提出 一 个 适当 的 数据 表示 
方案 。 问 题 是 : 是 否 需 要 Web 数据 库 系统 的 标准 数据 模型 ? 是 否 有 可 能 制定 这 样 的 标 
YE? 如 果 是 ， 标 准 模型 和 网 络 上 数据 库 使 用 的 各 个 模型 之 间 的 关系 是 什么 ? 

Web 数据 库 管 理 功能 包括 查询 处 理 、 元 数据 管理 、 安 全 性 和 完整 性 等 功能 。 在 本 
章 参 考 文献 [THUR00] 中 ， 我 们 研究 了 各 种 DBMS 功能 ， 并 讨论 了 Web 数据库 访问 对 
这 些 功能 的 影响 。 这 里 讨论 了 其 中 的 一 些 问题 。 图 4. 3 为 Web 数据 库 功 能 。 查 询 和 浏 
览 是 两 个 关键 功能 。 首 先 ， 需 要 一 个 适当 的 查询 语言 。 由 于 SQL 是 流行 的 语言 ， 因 此 
可 能 需要 适当 的 扩展 SQL。 从 XML 和 SQL 演变 而 来 的 XML - QL 和 XQuery 正明 着 这 个 
方向 发 展 。 查 询 处 理 涉 及 开发 一 个 成 本 模型 。 互 联网 数据 库 管 理 有 特殊 的 成 本 模型 吗 ? 
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关于 浏览 操作 ， 查 询 处 理 技术 必须 与 以 下 关联 的 技术 相 结合 。 也 就 是 说 ， 超 媒体 技术 必 
须 与 数据 库 管 理 技术 相 结合 。 
事务 管理 对 许多 应 用 程序 至 关 重 要 。 网 上 可 能 有 新 的 交易 类 型 。 例 如 ， 可 以 通过 因 
特 网 出 售 各 种 物品 。 在 这 种 情况 下 ， 当 潜在 严 家 出 价 时 ， 该 物品 不 应 立即 被 锁定 。 它 在 
收 到 几 个 出 价 ， 并且 在 被 出 售 前 必须 保持 开放 状态 。 也 就 是 说 ,需要 特殊 的 交易 模型 。 
必须 为 这 种 交易 模型 开发 适当 的 并 发 控制 和 恢复 技术 。 

元 数据 管理 是 Web 数据 管理 的 主要 关注 点 。 问 题 是 : 什么 是 元 数据 ? 元 数据 描述 
了 与 库 相 关 的 所 有 信息 。 这 可 能 包括 各 种 网 站 、 用 户 类 型 、 访 问 控制 问题 和 强制 执行 的 
策略 。 元 数据 应 位 于 哪里 ?每 个 参与 网 站 应 该 保留 自己 的 元 数据 吗 ? 元 数据 应 该 复制 还 
是 应 该 有 一 个 集中 的 元 数据 存储 库 ? 这 种 环境 中 的 元 数据 可 能 是 动态 的 ， 这 是 因为 用 户 


和 网 站 可 能 会 不 断 变化 。 
Web 数 据 库 功能 






























































































































Web 数 据 ， 安 全 性 ， 
隐私 和 完整 性 


图 4.3 Web 数据 库 功能 
Web 数据 库 访 问 的 存储 管理 是 一 个 复杂 的 功能 。 需 要 适当 的 索引 策略 和 访问 方法 
来 处 理 Web 数据 。 男 外 ， 由 于 数据 量 庞大 ， 还 需要 将 数据 库 管理 技术 与 大 容量 存储 技 
术 相 结合 的 技术 。 其 他 数据 管理 功能 包括 集成 异 构 数据 库 ， 管 理 多 媒体 数据 和 挖掘 。 我 
们 在 本 章 参 考 文献 [THUR02a] 中 讨论 它们 。 


4.2.2 复杂 数据 管理 


4.2.2.1 多 媒体 数据 系统 
多 媒体 数据 管理 器 (MultiMedia Data Manager , MM - DM) 提供 对 来 自 多 媒体 数据 
库 的 多 媒体 数据 的 存储 、 操 作 和 检索 的 支持 。 在 某 种 意义 上 ， 多 媒体 数据 库 系 统 是 一 种 
异 构 数 据 库 系统 ， 因 为 它 管理 异 构 数据 类 型 。 异 构 性 缘 于 数据 ， 如 文本 、 视 频 和 音频 等 
多 种 媒体 。 由 于 多 媒体 数据 也 传达 了 演讲 、 音 乐 和 视频 等 信息 ， 因 此 我 们 将 信息 分 组 归 
档 。 多 媒体 数据 管理 的 一 个 重要 方面 是 数据 表示 。 目 前 ， 扩 展 的 关系 模型 和 对 象 模型 已 
经 被 提出 。 
MM - DM 必须 为 典型 的 DBMS 功能 提供 支持 。 这 些 包 括 查 询 处 理 、 更 新 处 理 、 事 
务 管理 、 存 储 管理 、 元 数据 管理 、 安 全 性 和 完整 性 。 男 外 ， 在 许多 情况 下 ， 诸 如 语音 和 
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视频 的 各 种 类 型 的 数据 必须 被 同步 显示 ， 因 此 ， 实 时 处 理 也 是 MM - DM 中 的 主要 问题 。 





为 了 设计 和 开发 一 个 MM - DM， 我 们 正在 研究 各 种 架构 。 在 一 种 架构 中 ， 数 据 管 
理 器 用 来 管理 元 数据 ， 多 媒体 文件 管理 器 用 于 管理 多 媒体 数据 。 这 是 一 个 集成 的 数据 管 












































理 和 多 媒体 文件 管理 模块 。 在 这 种 情况 下 ，MM - DM 由 3 个 模块 组 成 : 管理 元 数据 的 
数据 管理 器 、 多 媒体 文件 管理 器 和 用 于 集成 两 者 的 模块 。 第 二 种 架构 是 紧 耦 合 方式 。 在 





这 种 架构 中 ， 数 据 管理 需 管 理 多 媒体 数据 以 及 元 数据 。 紧 


数据 管理 功能 都 可 以 应 用 于 多 媒体 数据 库 。 这 包括 查询 处 





存储 管理 以 及 安全 性 和 完整 性 管理 。 请 注意 ， 大 使 用 松散 厅 











行 DBMS 功能 ， 和 否则 DBMS 仅 管理 多 媒体 数据 的 元 数据 。 

本 章 参 考 文献 [ THUR97] 中 讨论 了 其 他 方面 的 架 
构 。 例 如 ， 多 媒体 数据 库 系 统 可 以 使 用 诸如 面向 对 象 数 
据 库 系 统 的 商业 数据 库 系 统 来 管理 多 媒体 对 象 。 然 而 ， 
对 象 之 间 的 关系 和 临时 关系 的 表示 可 能 涉及 DBMS 的 扩 
展 。 也 就 是 说 ，DBMS 与 扩展 层 一 起 提供 完整 的 支持 来 管 
理 多 媒体 数据 。 在 另 一 种 情况 下 ， 扩 展 和 数据 库 管 理 功 
能 都 是 集成 的 ， 因 此 DBMS 要 管理 多 媒体 对 象 以 及 对 象 
之 间 的 关系 。 本 章 参考 文献 [ THUROI] 讨论 了 这 些 架构 
的 进一步 细节 以 及 如 何 管理 多 媒体 数据 库 。 图 4.4 为 多 
媒体 信息 管理 系统 。 
4.2.2.2 ”地 理 空间 数据 管理 

地 理 空间 数据 管理 器 ， 通 常 也 被 称 为 地 理 信息 系统 


(Geographical Information System, GIS), ， 是 捕 
分 析 、 管 理 和 呈现 与 位 置 相关 联 的 数据 的 任意 系统 。 如 






















































































昌 合 架构 具有 优势 ， 因 为 所 有 
理 、 事 务 管理 、 元 数据 管理 、 
轴 合 方法 ， 除 非 文 件 管理 器 执 




















本 章 参 考 文献 [GIS] 所 述 ， 地 理 信息 系统 是 包括 具有 应 月 




















MM-DBMS: 
集成 数据 管理 
器 和 文件 管理 器 









多 媒体 数据 库 





获 、 存 储 、 图 4.4 多 媒体 信息 管理 系统 





日 到 遥感 、 土 地 测量 、 航 空 摄 
影 、 数 学 、 摄 影 测量 和 地 理 地 图 软件 的 系统 。GIS 可 以 被 认为 是 于 


1 图 和 数据 库 技术 的 整 








合 。 因 此 ， 其 中 的 困难 是 表示 空间 数据 (例如 ， 地 图 ) 及 存储 和 查询 这 些 数据 。 

地 理 空间 数据 管理 主要 得 益 于 开放 地 理 空 间 联盟 ( Open Geospatial Consortium, 
OGC) 的 活动 。 除 了 为 地 理 空 间 数 据 开 发 XML 的 地 理 空间 标记 语言 (Geospatial Markup 
Language, GML) 之 外 ，OGC 还 涉及 制定 表示 、 存 储 和 管理 地 理 空间 数据 的 标准 。 我 们 
为 多 媒体 数据 系统 (管理 文本 、 语 音 、 视 频 和 音频 数据 的 组 合 ) 所 描述 的 许多 要 求 均 

















适用 于 地 理 空间 系统 。 其 他 复杂 数据 包括 传感器 数据 ， 用 于 表示 传感器 数据 的 技术 ， 诸 

















如 SensorML 等 ， 也 正在 被 开发 。 


4.3 信息 管理 





我 们 将 数据 仓库 和 数据 挖掘 作为 信息 管理 的 一 部 分 ， 因 为 这 些 系统 从 可 能 存储 在 数据 
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库 中 的 原始 数据 中 提取 一 些 有 用 信息 。 我 们 还 在 信息 管理 下 讨论 信息 检索 和 数字 图 书馆 。 


P MN 
BAB 数据、 信息 和 知识 管理 


4.3.1 数据 仓库 和 数据 挖掘 


数据 仓库 是 支持 数据 挖 气 和 数据 分 析 的 关键 数据 管理 技术 之 一 。 如 由 英 曼 ( 见 本 
章 参 考 文献 [INMO93]) 所 述 ， 数 据 仓 库 是 面向 对 象 的 。 它 们 的 设计 在 很 大 程度 上 取 
决 于 利用 它们 的 应 用 程序 。 它 们 集成 了 多 种 可 能 的 异 构 数 据 源 。 同 时 ， 它 们 也 是 持久 性 
的 。 也 就 是 说 ， 仓 库 非 常 像 数据 库 ， 它 们 随时 间 而 变化 。 这 是 因为 随 着 构建 仓库 的 数据 
源 的 更 新 ， 在 仓库 中 必须 体现 这 种 更 改 。 本 质 上 ， 数 据 仓库 为 企业 或 组 织 的 决策 提供 支 
持 功 能 。 例 如 ， 虽 然 数 据 源 可 能 具有 原始 数据 ， 但 数据 仓库 可 能 具有 应 用 原始 数据 的 相 
关 数 据 、 汇 总 报告 和 聚合 函数 。 

图 4. 5 为 一 个 数据 仓库 。 数 据 源 由 数据 库 系 统 A、B 和 C 管理。 这 些 数据 库 中 的 信 
息 被 合并 放 入 数据 仓库 。 通 过 数据 仓库 ， 数 据 可 能 经 常 被 不 同 的 应 用 程序 查看 。 也 就 是 
说 ， 数 据 是 多 维 的 。 例 如 ， 工 资 部 门 可 能 希望 数据 处 于 某 种 格式 ， 而 项 目 部 门 可 能 希望 
数据 处 于 不 同 的 格式 。 数 据 仓库 必须 支持 这 种 多 维 数据 。 
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图 4.5 数据 仓库 

数据 挖掘 是 进行 多 种 查询 并 提取 有 用 的 信息 、 模 式 、 趋 势 的 过 程 ， 往 往 在 事先 并 不 

知道 大 量 的 数据 是 否 在 数据 库 中 。 实 际 上 ， 对 于 许多 组 织 来 说 ， 数 据 挖掘 的 目标 包括 
根据 过 去 的 经 验 和 当前 的 趋势 来 提高 营销 能 力 、 检 测 异 常 模式 和 预测 未 来 。 

一 些 数据 挖掘 技术 包括 基于 统计 推理 、 归 纳 逻 辑 编程 、 机 需 学 习 、 模 糊 集 、 神 经 网 
































络 等 技术 。 数 据 挖掘 结果 包括 分 类 (查找 将 数据 分 成 组 的 规则 ) 、 关 联 〈 数 据 之 间 的 关 
联 规则 ) 和 排序 〈 查 找 订单 数据 的 规则 ) 。 实 际 上 ， 人 们 得 到 的 一 些 假设 ,往往 是 从 示 
例 和 模式 观察 中 提取 的 信息 。 我 们 需要 执行 一 系列 查询 ， 才 能 观察 到 这 些 模式 ， 每 个 查 
询 可 能 取决 于 对 移 前 提出 的 查询 获得 的 响应 。 在 数据 挖掘 方面 已 经 有 许多 进展 。 在 本 章 
参考 文献 [KDN] 中 给 出 了 各 种 工具 的 讨论 ， 参 考 文献 【BERR97] 给 出 了 对 结果 和 技 
术 的 详细 讨论 。 图 4. 6 为 数据 挖掘 步骤。 我 们 已 经 在 许多 云 应 用 使 用 了 数据 挖掘 技术 ， 
例如 恶意 软件 检测 和 内 部 威胁 检测 ， 我 们 将 在 附录 B 中 提供 数据 挖掘 的 概述 。 
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CN 集成 数据 源 一 清除 /修改 数据 源 — 挖掘 数据 
采取 行动 < 一 报告 最 终结 果 一 检查 /修改 结果 


图 4.6 数据 挖掘 步骤 
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4.3.2 信息 检索 



















































































六 息 检 索 系统 本 质 上 为 管理 文件 提供 支持 。 功 能 包括 文档 检索 、 文 档 更 新 和 文档 存 
储 管理 等 。 这 些 系统 本 质 上 是 用 于 管理 文档 的 DBMS。 这 里 有 许多 类 型 的 信息 检索 系 
统 ， 它 们 包括 文本 检索 系统 、 图 像 检索 系统 以 及 音 视频 检 - 

: NEM : 3 浏览 器 / 
索 系 统 。 图 4. 7 为 一 个 通用 的 信息 检索 系统 ， 可 用 于 文本 ”| 查询 处 理 器 
检索 、 图 像 检索 、 音 频 检索 和 视频 检索 。 这 种 架构 也 可 以 
被 用 于 多 媒体 数据 管理 系统 。 每 种 类 型 的 信息 检索 系统 的 。 | 元 数据 存储 
地 点 均 在 本 音 参 考 文献 [THUROL] 中 有 所 讨论 。 ESSAY 

着 息 检 索 系 统 包括 文本 检索 、 图 像 检索 、 视 频 检索 和 Xe 
音频 检索 ( 见 本 章 参 考 文献 [IEFE03] ) 。 例 如 ， 文 本 检 更 新 处 理 器 整 性 管理 器 





索 系 统 本 质 上 是 用 于 处 理 文本 数据 的 数据 库 管 理 系统 。 文 

本 数据 可 以 是 书籍 、 期 刊 、 杂 志 等 文件 。 现 在 ， 人 们 需要 ” 图 4.7 信息 检索 系统 

一 个 很 好 的 文档 表示 数据 模型 。 人 们 对 开发 用 于 文档 管理 

的 语义 数据 模型 和 对 象 模型 已 经 进行 了 大 量 的 工作 。 例 如 ， 一 个 文件 可 以 有 若干 个 段 
落 ， 一 个 段落 可 以 有 几 个 部 分 等 。 查 询 文 档 可 以 基于 很 多 因素 。 我 们 可 以 指定 关键 字 ， 
并 请 求 根据 关键 字 检 索 文档 。 还 可 以 检索 与 彼此 有 某 些 关系 的 文档 。 最 近 关 于 信息 检索 
的 研究 重点 是 基于 语义 来 查询 文档 。 例 如 ,“ 检 索 描述 景区 视图 的 文档 ”或 “检索 对 十 
岁 以 下 儿童 有 用 的 文档 ”就 是 这 种 查询 的 类 型 。 

言 息 检索 系统 的 例子 是 数字 图 书馆 。 数 字 图 书馆 在 国家 科学 基金 会 (National Sci- 
ence Foundation, NSF) , 国防 高 级 研究 计划 署 (Defense Advanced Research Projects Agency, 
DARPA) 和 国家 航空 航天 局 (National Aeronautical and Space Administration, NASA) 研究 
的 初步 努力 下 ， 成 果 表 现 突 出 。 国 家 科学 基金 会 继续 资助 这 一 领域 的 特别 项 目 ， 使 得 其 迅 
速 发 展 。 数 字 图 书馆 的 理念 是 数字 化 所 有 类 型 的 文件 ， 并 提供 对 这 些 数字 化 文件 的 有 效 
访问 。 

要 使 数字 图 书馆 成 为 现实 ， 必 须 共 同 努 力 发 展 几 种 技术 。 这 些 包 括 网 络 数据 管理 、 
标记 语言 、 搜 索引 擎 和 问答 系统 。 另 外 ， 多 媒体 信息 管理 以 及 信息 检索 系统 也 起 着 重要 
的 作用 。 本 节 将 回顾 一 些 数 字 图 书馆 技术 的 各 种 发 展 。 图 4. 8 为 数字 图 书馆 系统 的 一 个 
例子 。 
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图 4.8 数字 图 书馆 系统 


4.3.3 搜索 引擎 


H 20 世纪 90 年 代 初 以 来 ， 已 经 开发 了 许多 搜索 引擎 。 它 们 起 源 于 20 世纪 60 年 代 
及 以 后 开发 的 信息 检索 系统 。 通 常 当 我 们 调用 浏览 器 时 ， 如 Netscape 或 微软 的 TE. 浏览 
器 时 ， 我 们 可 以 访问 多 个 搜索 引擎 。 一 些 早期 的 搜索 引擎 有 AltaVista, HE, Info seek 
和 ILycos。 这 些 系统 诞生 于 1995 年 前 后 ， 对 那个 时 代 来 说 是 相当 有 用 的 。 它 们 现在 有 了 
很 大 的 改善 。 自 1999 年 以 来 ， 有 一 个 受 欢迎 的 搜索 引擎 是 Google。 它 开始 于 斯 图 加 特 
大 学 研究 项 目 ， 由 NSF 和 美国 中 央 情 报 局 以 及 行业 等 组 织 资 助 ， 后 来 被 商业 化 。Google 
以 及 其 他 一 些 搜 索引 擎 都 提供 智能 搜索 。 然 而 ， 在 用 户 可 以 获得 他 们 的 查询 的 确切 答案 
之 前 ， 他 们 还 有 很 长 的 路 要 走 。 

搜索 引擎 需要 通过 浏览 器 才能 访问 。 当 你 单 击 搜索 引擎 时 ， 你 将 收 到 一 个 请 求 你 输 
人 搜索 内 容 的 窗口 。 然 后 你 要 列 出 正 要 查找 的 信息 的 关键 字 。 然 后 ， 搜 索引 人 擎 将 列 出 各 
个 相关 网 页 的 链接 。 其 中 的 问题 是 搜索 引擎 如 何 找到 网 页 ” 它 基 本 上 在 网 络 上 使 用 信息 
检索 。 

搜索 引擎 的 评级 由 其 产生 结果 的 速度 决定 ， 更 重要 的 是 它 产 生 结果 的 准确 性 。 也 就 
是 说 ， 搜 索引 擎 是 否 列 出 了 查询 的 相关 网 页 ? 例如 ， 当 您 输入 称 为 “肺癌 ”的 查询 时 ， 
它 是 否 提供 您 正在 寻找 的 有 关 肺 瘤 的 相关 信息 ? 例如 ， 它 可 以 列 出 有 关 肺 瘤 的 资源 ， 或 
者 列 出 关于 谁 患 有 肺癌 的 资料 。 通 常人 们 想 要 获得 有 关 肺 癌 的 资源 。 如 果 他 们 想 知道 谁 
甫 有 肺癌 ， 那 么 他 们 可 能 会 输入 “肺癌 患者 ”。 

许多 搜索 的 问题 虽然 非常 有 用 ,但 却 经 常 提供 很 多 无 关 紧 要 的 信息 。 要 获得 准确 的 
结果 ， 他 们 必须 建立 复杂 的 索引 技术 。 他 们 还 可 以 缓存 来 自 Web 服务 器 的 信息 ， 以 便 
应 对 经 常 提出 的 查询 。 搜 索引 擎 有 一 个 关于 他 们 必须 搜索 的 各 种 Web 服务 器 的 目录 。 
当 新 服务 器 进入 时 ， 此 目录 将 更 新 。 然 后 搜索 引擎 构建 各 种 关键 字 的 索引 。 当 用 户 提 出 
查询 时 ， 搜 索引 擎 将 参考 其 知识 库 ， 其 中 包含 有 关 Web 服务 器 和 各 种 索引 的 信息 ; 它 
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还 会 检查 缓存 ， 如 果 它 没有 相关 信息 ， 然 后 才 搜 索 Web IRF Ak AYIE e. 
必须 实时 进行 。 





。 所 有 这 一 切 


都 


Web 挖掘 使 得 我 们 能 够 挖掘 用 户 日 志 ， 并 为 各 种 用 户 构建 行为 轮廓 ， 从 而 使 搜索 














更 有 效率 。 请 注意 ， 现 在 有 成 千 上 万 的 用 户 ， 构 建 其 行为 轮廓 并 不 是 简单 直接 的 。 我 们 

















需要 挖 据 Web 日 志 ， 并 找 出 用 户 的 偏好 。 然 后 我 们 列 出 用 户 的 这 些 网 页 。 此 外 ， 如 果 
用 户 正 在 搜索 某 些 信息 ， 则 搜索 引擎 可 能 不 时 地 列 出 可 能 与 用 户 请 求 相 关 的 网 页 。 也 就 


























是 说 ， 搜 索引 擎 必须 根据 用 户 想 要 的 内 容 动态 地 进行 搜索 。 


4.4 知识 管理 





知识 管理 是 将 知识 作为 资源 来 组 织 管 理 的 过 程 。 这 可 能 意味 着 分 享 专业 知识 、 开 
一 个 学 习 型 组 织 、 培 养 员工 、 学 习 经 验 以 及 互相 合作 。 知 识 管理 本 质 上 包括 数据 管理 和 














信息 管理 。 但 是 ， 这 并 不 是 人 人 都 同意 的 观点 。 现 在 已 经 提出 了 各 种 知识 管理 



































发 


的 定义 。 


知识 管理 是 一 个 主要 由 商学 院 发 明 的 学 科 。 这 些 概 念 已 经 存在 了 很 长 时 间 了 。 但 是 ， 信 


息 技 术 (Information Technology, IT) 和 网 络 发 展 的 结果 造就 了 知识 管理 








这 个 词 。 


在 Morey 等 人 收集 的 知识 管理 论文 集 ( 见 本 章 参考 文献 [ MOREO1]) 中 ， 知 识 
理 分 为 3 个 领域 。 也 就 是 建立 知识 型 公司 、 培 养 知识 型 员工 、 知 识 管理 流程 (dx 
术 ) ， 包 括 开发 共享 文档 和 工具 的 方法 ， 以 及 衡量 知识 管理 效率 的 指标 。 在 “哈佛 商业 
评论 ”中 有 关 知 识 管理 的 一 系列 文章 ， 描 述 了 一 个 知识 渊博 的 公司 ， 建 立 一 个 学 习 型 
组 织 ， 并 教授 人 们 如 何 学 习 [HARV96]。 组 织 行为 和 团队 动态 在 知识 管理 中 发 挥 着 重 


























要 作用 。 











只 
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知识 管理 技术 包括 几 种 信息 管理 技术 ， 而 信息 管理 技术 包括 知识 表示 和 知识 库 管理 
系统 。 其 他 知识 管理 技术 包括 协作 工具 、 用 于 组 织 网 络 信 息 的 工具 ， 以 及 用 于 衡量 所 获 
得 的 知识 的 有 效 性 的 工具 ， 如 收集 各 种 指标 。 知 识 管理 技术 实际 上 包括 数据 管理 和 信息 


















































管理 技术 以 及 决策 支撑 技术 。 图 4. 9 为 一 些 知 识 管理 组 件 和 技术 ， 它 还 列 出 了 知识 管理 


周期 的 各 个 方面 。 网 络 技术 在 知识 管理 中 发 挥 着 重要 作用 ， 所 以 知识 管理 与 网 络 密切 相 




















关 。 尽 管 知识 管理 实践 已 经 存在 多 年 ， 但 确实 是 网 络 促进 了 知识 管理 。 


知识 管理 组 件 、 
周期 和 技术 






周期 : 知识 、 创 造 、 za 
流程 指标 分 享 、 测 量 和 改进 培训 网 
图 4.9 知识 管理 组 件 和 技术 
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许多 公司 现在 都 有 内 部 网 ， 这 是 一 个 最 强大 的 知识 管理 工具 。 成 千 上 万 的 员工 通过 
组 织 中 的 网 络 进行 连接 。 大 型 企业 在 世界 各 地 都 有 网 站 ， 员 工 之 间 的 关系 也 日 益 密 切 。 
电子 邮件 可 以 被 认为 是 早期 的 知识 管理 工具 之 一 。 而 现在 有 很 多 工具 ， 如 搜索 引擎 和 电 
子 商 务工 具 。 

随 着 网 络 数据 管理 和 电子 商务 工具 的 普及 ， 知 识 管理 将 成 为 网 络 和 电子 商务 的 重要 
组 成 部 分 。 本 章 参考 文献 [ MORE01] 中 提供 了 有 关 知 识 管理 经 验 的 文章 ， 包 括 策略 、 
流程 和 指标 。 协 作 知 识 管理 在 本 章 参考 文献 [THURO2b] 中 介绍 。 


45 活动 管理 













































































这 里 的 活动 包括 电子 商务 、 信 息 集成 、 信 息 共 享 和 供应 链 管 理 。 我 们 在 本 节 将 讨论 
这 些 活动 。 在 第 二 部 分 中 ,我 们 将 介绍 如 何 调用 Web 服务 来 执行 这 些 活动 。 在 第 三 部 
分 和 第 四 部 分 中 ,我们 将 讨论 如 何 调 用 云 服 务 来 执行 这 些 活动 。 


4.5.1 电子 商务 和 电子 贸易 


我 们 正在 开发 各 种 模型 、 架 构 和 技术 。B2B 的 电子 商务 是 关于 两 家 企业 在 网 络 上 进 
行 交易 的 过 程 。 举 一 些 例子 : 假设 A 公司 是 一 家 汽车 制造 商 ， 需 要 在 其 汽车 上 安装 微 
处 理 器 。 然 后 ， 它 将 从 制造 微 处 理 器 的 B 公司 购买 微 处 理 器 。 男 一 个 例子 是 当 一 个 人 
从 玩具 制造 商 那里 购买 一 些 商品 ， 如 玩具 。 该 制造 商 然 后 通过 网 络 与 包装 公司 联系 ， 将 
玩具 交付 给 个 人 。 人 制造 商 和 包装 公司 之 间 的 交易 是 B2B 交易 。B2B 电子 商务 也 涉及 一 
个 企业 购买 另外 一 家 企业 的 装置 或 两 家 企业 合并 。 其 中 的 要 点 是 这 种 交易 必须 在 网 上 进 
行 。B2C 的 电子 商务 就 是 大 众 群 体 中 的 消费 者 在 网 上 进行 购物 。 在 玩具 制造 商 的 例子 
中 ， 个 人 与 玩具 制造 商 之 间 的 购买 是 B2C 的 交易 。 

电子 商务 服务 器 的 模块 可 以 包括 用 于 管理 数据 和 网 页 、 控 掘 客户 信息 、 安 全 执行 以 
及 事务 管理 的 模块 。 电 子 商务 客户 端 功能 可 能 包括 表示 管理 、 用 户 接口 以 及 缓存 数据 和 
托管 浏览 器 。 也 可 能 有 一 个 中 间 层 ， 可 以 实施 业务 对 象 来 执行 电子 商务 的 业务 功能 。 这 
些 业务 功能 可 能 包括 经 纪 、 调 解 、 协 商 、 采 购 、 销 售 、 营 销 和 其 他 电子 商务 功能 。 电 子 
商务 服务 器 功能 受到 网 络 信息 管理 技术 的 影响 。 除 了 数据 管理 功能 和 业务 功能 之 外 ， 电 
子 商务 功能 还 包括 管理 分 发 、 异 构 和 联盟 的 功能 。 

电子 商务 还 包括 非 技 术 方面 ， 如 政策 、 法 律 、 社 会 影响 和 心理 影响 。 我 们 正在 以 完 
全 不 同 的 方式 开展 业务 ， 因 此 我 们 需要 一 个 模式 的 转变 。 如 果 我 们 仍然 想 要 传统 的 购买 
和 销售 产品 的 方式 ， 就 不 能 成 功 实现 电子 商务 。 我 们 必须 更 有 效率 ， 依 靠 网 络 服务 和 云 
计算 等 新 兴 技 术 来 获得 竞争 优势 。 这 是 因为 云 计 算 可 以 为 电子 商务 获得 可 扩展 的 解决 方 
案 。 电 子 商 务 的 一 些 关 键 组 件 如 图 4. 10 所 示 。 


4.5.2 协作 与 工作 流 


虽然 计算 机 支持 的 协同 工作 (Computer - Supported Cooperative Work, CSCW) 的 概 
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pe Se trae 功能 : Web 数 据 管理 、Web 
: B2B、B2C 功能 : 进行 企业 之 间 的 交易 ; 
is 消费 者 从 商家 购买 物品 ERU 


图 4. 10 电子 商务 组 件 





念 在 20 世纪 80 年 代 初 首次 提出 ， 但 在 20 世纪 90 年代， 这 个 话题 才 变 成 热门 话题 。 协 
作 计 算 使 团队 、 个 人 和 组 织 能 够 彼此 合作 ， 完 成 任务 或 任务 的 汇集 工作 。 这 些 任务 可 能 
因 参 与 会 议 、 解 决 具体 问题 或 设计 系统 而 异 (参见 本 章 参考 文献 [ACM 91 ] ) 。 

数据 库 社 群 中 对 协作 计算 特别 感 兴趣 的 一 个 方面 是 工作 流 计算 。 工 作 流 被 定义 为 一 
系列 功能 的 自动 化 ， 包 括 一 人 或 多 人 执行 的 数据 输入 、 数 据 检查 和 监视 等 业务 流程 。 一 
个 非常 适合 工作 流 自动 化 过 程 的 例子 就 是 采购 流程 。 一 些 早期 商业 的 工作 流 系统 产品 ， 
主要 面向 办 公 环 境 ， 基 于 消息 架构 。 这 种 架构 支持 当前 工作 团队 的 分 布 式 性 质 。 然 而 ， 
消息 架构 通常 是 基于 文件 的 ， 并 且 缺 少 DBMS 支持 的 许多 功能 ， 例 如 数据 表示 、 一 致 性 













































































管理 、 跟 踪 和 监视 。 新 兴 的 工作 流 系统 往往 要 利用 数据 管理 功能 。 


图 4.11 为 A 组 和 B 组 正在 处 理 地 
理 问题 (如 分 析 和 预测 北美 天 气 ) 的 示 
例 。 这 两 队 必 须 拥 有 全 球 的 地 图 和 任何 | 团队 A A、B 两 队 合作 处 理 | APP 


与 之 相关 的 注释 。 

















一 个 团队 所 做 的 任何 一 个 地 理 问题 





更 改 都 应 该 立即 显示 给 其 他 团队 ， 两 队 





的 沟通 就 好 像 他 们 在 同一 个 房间 一 样 。 

为 了 实现 这 种 透明 的 沟通 ， 需 要 类 
据 管理 的 支持 。 这 可 以 使 用 DBMS 来 管 
理 数 据 或 某 些 类 型 的 数据 管理 器 ， 该 数 
据 管 理 器 提供 了 一 























些 基本 功能 ， 如 数据 


完整 性 、 并 发 访问 和 检索 功能 。 在 上 述 EH HL MENARA 
示例 中 ,数据 库 可 以 包括 描述 团队 正在 处 理 的 问题 的 信息 、 涉 及 的 数据 、 历 史 数 据 以 及 
元 数据 信息 。 数 据 管理 器 必须 提供 适当 的 并 发 控制 功能 ， 以 便当 两 个 团队 同时 访问 某 一 




















图 片 并 进行 更 改 时 ， 这 些 更 改 将 协同 进行 。 








网 络 增加 了 进一步 协作 的 需要 。 用 户 现 在 可 以 在 网 络 上 共享 文档 ， 并 在 网 络 上 进行 
论文 编写 工作 和 设计 工作 。 企 业 信息 基础 设施 促进 信息 和 文件 的 协作 和 共享 。 因 此 ， 协 
作 工 具 必 须 在 网 络 上 有 效 地 工作 〈 见 本 章 参 考 文献 [IEEF99]) 。 如 第 5 章 所 述 ， 多 种 





网 络 服务 标准 已 经 
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被 提出 ， 用 于 协作 和 工作 流 。 这 样 的 服务 现在 正在 被 云端 所 提供 。 





BAR BIB AE BARING | 


4.5.3 信息 集成 


图 4. 12 为 异 构 数 据 库 系统 或 信息 源 之 间 的 互 操作 性 示例 。 这 个 目标 是 为 用 户 和 应 用 
程序 提供 用 于 查询 和 执行 交易 的 透明 访问 (参见 本 章 参考 文献 [ WIEDO2]) 。 请 注意 ， 在 
异 构 环境 中 ， 本 地 DBMS 也 可 能 是 异 构 的 。 此 外 ， 分 布 式 处理 器 的 模块 (在 4.2.2 节 中 讨 
W) 可 以 进行 DBMS 特定 处 理 ， 以 及 本 地 DBMS 独立 处 理 。 我 们 称 这 种 分 布 式 处 理 器 为 异 
RAP AR SLASHES (Heterogeneous Distributed Processor，HDP) 。 要 是 使 这 些 不 同 数据 库 系 统 
之 间 可 以 相互 操作 需要 解决 几 个 技术 问题 。 请 注意 ， 异 构 性 可 能 存在 于 不 同 的 数据 模型 、 
模式 、 查 询 处 理 技 术 、 查 询 语言 、 事 务 管理 技术 、 语 义 、 完 整 性 和 安全 性 。 
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数据 和 信息 集成 多 媒体 、 


地 理 空间 、 语 义 Web 技 术 
结构 化 数据 ， 
例如 关系 
图 4.12 信息 集成 


异 构 数 据 库 环境 中 的 茶 些 节点 可 能 形成 联盟 。 这 样 的 环境 被 分 类 为 联盟 数据 主页 环 
境 。 如 谢 思 和 拉 尔 森 〈 见 本 章 参考 文献 [SHET90] ) 所 述 ， 联 盟 数据 库 系 统 是 一 个 合 
作 但 自主 的 数据 库 系 统 的 集合 ， 它 们 同属 一 个 联盟 团体 。 也 就 是 说 ， 目 标 可 以 是 属于 联 
邦 的 DBMS， 彼 此 合作 ， 并 保持 一 定 程度 的 自主 权 。 第 7 章 将 讨论 用 于 信息 集成 的 网 络 
服务 。 我 们 将 在 第 六 部 分 讨论 一 个 实验 性 的 安全 的 基于 云 的 信息 集成 系统 。 


4.5.4 信息 共享 























非 结构 化 数据 ， 
例如 文本 、 地 理 空 间 


半 结 构 化 数据 ， 
例如 文本 、 地 理 空 间 















































9/11 委员 会 报告 "鼓励 企业 从 需要 知道 向 需要 共享 的 模式 转变 。 信 息 共 享 对 于 国防 
和 人 情报 机 构 而 言 也 是 重要 的 ， 也 是 医疗 机 构 的 重要 组 成 部 分 。 例 如 ,在 紧急 情况 〈 例 
如 事故 ) 中 ， 患 者 数据 可 能 必须 被 共享 ， 以 便 可 以 向 患者 提供 最 恰当 的 护理 。 在 正常 
操作 期 间 ， 患 者 数据 可 能 只 有 在 患者 授权 这 样 做 的 情况 下 才能 进行 共享 。 




















O 9/1 委员 会 报告 为 美国 钨 怖 秦 击 全 国 委 员 会 报告 。 一 一 译 者 注 
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信息 共享 增加 了 安全 性 和 隐私 性 的 复杂 性 。 组 织 机 构 必 须 执 行 适当 的 安全 和 隐私 策 
略 ， 以 便 只 共享 合适 的 数据 。 此 外 ， 还 应 执行 适当 策略 ， 以 确定 在 紧急 情况 下 采取 行 
动 。 信 息 共 享 的 另 一 个 重要 方面 是 管理 信任 。 例 如 ， 联 盟 中 的 组 织 机 构 是 否 相 互信 任 ? 
是 否 应 该 与 男 一 个 不 被 信任 的 机 构 共 享 信息 ?是否 有 不 同 的 信任 水 平 ? 

也 许 信息 共享 的 最 重要 方面 是 为 共享 提供 激励 。 即 有 利于 信息 共享 的 策略 ， 在 没有 
鼓励 措施 时 ， 为 什么 要 共享 信息 ?此 外 ， 什 么 是 鼓励 措施 ”它们 应 该 是 货币 性 的 还 是 应 
该 是 被 认可 的 奖励 ， 还 是 为 组 织 机 构 提 供 有 效 执行 其 职能 的 工具 ? 

我 们 正在 由 空军 科学 研究 办 公 室 (Air Force Office of Scientific Research, AFOSR) 资助 
的 多 学 科大 学 研究 计划 (Multi - Disciplinary University Research Initiative, MURI) 项 目下 进 
行 信息 共享 的 广泛 研究 。 有 关 详 细 信息 ， 请 参阅 本 章 参考 文献 [FINI09]。 图 4.13 为 信息 共 
享 的 情形 。 我 们 的 主要 重点 是 应 用 信息 共享 策略 ， 以 及 确定 共享 的 动机 。 联 盟 组 织 之 间 的 信 
息 请 求 可 以 被 视 为 网 络 服务 客户 端 请 求 ， 而 响应 请 求 的 服务 器 可 以 被 视 为 网 络 服务 。 此 外 ， 
也 可 以 使 用 语义 Web 技术 ， 因 为 数据 可 以 表示 为 XML 或 RDF， 并 且 本 体 可 以 用 于 理解 在 信 
息 共 享 中 的 各 种 概念 。 我 们 将 在 第 七 部 分 中 讨论 我 们 已 经 开发 的 基于 云 的 信息 共享 保障 原型 
系统 。 在 本 书 提供 的 附录 D 中 也 有 信息 共享 的 概述 。 







































































































































联盟 /联合 体 的 
数据 /策略 





导出 数据 /策略 


机 构 A 的 组 件 


导出 数据 /策略 


机 构 C 的 组 件 









导出 数据 /策略 
机 构 B 的 组 件 
数据 /策略 


图 4.13 信息 共享 








4.5.5 社交 网 络 


现在 ， 社 交 网 络 已 经 引起 了 广泛 关注 。 对 于 社交 网 络 ， 主 要 是 研究 网 络 如 何 形成 
的 。 这 些 社交 网 络 可 能 是 交友 网 络 、 恐 怖 网 络 、 交 通 网 络 、 通 信 网 络 和 人 类 网 络 。 它 们 
通常 被 统称 为 社交 网 络 。 用 于 开发 和 管理 社交 网 络 的 技术 是 基于 图 形 理论 的 技术 ， 数 据 
挖掘 技 术 从 个 人 的 行为 中 提取 其 社交 网 络 活 动 ， 以 及 挖掘 现 有 网 络 资源 以 确定 模式 ， 通 
过 可 视 化 技术 使 网 络 成 员 的 活动 可 视 化 。 
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aX thie fRdbdoxsnqam (o) 
通过 分 析 /挖掘 网 络 上 的 数据 ， 或 以 其 
他 方式 形成 社交 网 络 ， 并 确定 数据 之 间 的 


eS ac» 
链接 。 基 本 上 这 相当 于 形成 了 节点 和 链接 。 (CD es Gi» 
CED) 





一 旦 网 络 建成 ， 随 着 新 成 员 进入 这 个 世界 ， 
它 将 不 断 发 展 。 此 外 ， 还 要 对 这 些 网 络 进 ND 























行 了 分 析 /挖掘 ， 以 提取 反馈 至 网 络 的 有 用 A 的 社交 网 络 ORT 
信息 。 图 4 14 说 明了 这 个 过 程 。 第 四 部 分 BCDE SESS 
讨论 了 基于 云 的 社交 网 络 实验 系统 。 Se 





4.5.6 供应 链 管理 


最 后 一 个 我 们 需要 在 讨论 中 考虑 的 活动 是 供应 链 管理 。 一 些 组 织 机 构 不 可 能 什么 都 
自己 运作 ， 他 们 需要 其 他 组 织 机 构 ， 以 便 购 买 部 件 或 向 对 方 供应 部 件 。 例 如 ， 考 虑 一 家 
制造 汽车 的 公司 。 这 样 的 公司 将 需要 从 其 他 公司 获得 零件 ,包括 电子 设备 、 发 动机 和 制 
造 汽车 所 需 的 其 他 部 件 。 这 些 提供 商 可 以 从 其 他 提供 商 处 获得 其 零 部 件 。 假 设 提 供 商 为 
汽车 提供 全 球 定 位 系统 (Global Positioning System, GPS) 。 该 提供 商 将 从 其 他 公司 获得 
其 部 件 〈 例 如 ， 芯 片 和 处 理 器 ) 。 这 些 组 织 机 构 面 临 的 挑战 是 建立 伙伴 关系 ， 从 而 最 大 
限度 地 获 益 。 他 们 不 想 要 过 时 剩余 的 部 件 。 部 件 必须 在 正确 的 时 间 到 达 正 确 的 地 方 。 

IT 在 供应 链 管 理 中 发 挥 主要 作用 。 数 据 库 系统 用 于 跟踪 所 有 部 件 和 确定 它们 来 自 
哪里 。 数 据 挖掘 技术 可 用 于 分 
析 数 据 并 确定 可 供 选择 的 提供 提供 商 A 提供 商 B 提供 商 C 
商 。 供 应 链 中 的 合作 伙伴 需要 
信息 共享 技术 来 分 享 信息 并 最 
大 化 其 利益 。 信 息 集成 技术 被 
用 于 从 多 个 提供 商 中 分 离 数据 
























































































































































库 ， 以 便 将 一 个 共同 的 图 像 呈 制造 商 D 
现 给 客户 。 图 4 15 为 供应 链 管 组 装 产品 

理 。 供 应 链 管理 的 网 络 服务 将 在 

第 7 章 中 讨论 图 4.15 供应 链 管理 








4.6 总 结 和 展望 








在 本 章 中 ， 我 们 讨论 了 数据 、 信 息 和 知识 管理 的 各 个 方面 。 首 先 ， 我 们 讨论 了 数据 
管理 和 复杂 的 数据 管理 。 然 后 我 们 讨论 了 信息 管理 和 知识 管理 。 特 别 是 ,我们 讨论 了 数 
据 模型 、 数 据 库 系统 、 多 媒体 和 地 理 空间 数据 管理 、 数 据 仓库 、 数 据 挖 据 、 信 息 检索 、 
电子 商务 和 信息 共享 。 基 于 本 章 所 讨论 技术 的 云 计 算 和 云 计算 安全 概念 将 在 第 三 部 分 和 
第 五 部 分 给 出 。 在 第 四 部 分 、 第 六 部 分 和 第 七 部 分 ， 我 们 将 讨论 一 些 我 们 为 数据 、 信 
息 、 知 识 和 活动 管理 开发 的 实验 性 的 云 计 算 和 云 计算 安全 系统 。 
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数据 、 信 息 和 知识 管理 的 主要 挑战 之 一 是 大 数据 管理 和 分 析 。20 年 前 ， 




















大 数据 被 


认为 是 PB 级 的 数据 ,今天 则 是 数据 以 外 的 数据 。 也 就 是 说 ， 大 数据 是 不 能 用 当前 技术 
处 理 的 数据 。 我 们 需要 用 于 建 模 大 数据 、 查 询 大 数据 、 分 析 大 数据 以 及 可 视 化 大 数据 的 
技术 。 由 于 存在 大 量 必须 被 表示 、 分 析 和 可 视 化 的 数据 ， 例 如 代表 社交 网 络 的 大 量 图 形 




















结构 ， 我 们 需要 用 于 管理 这 种 大 数据 的 技术 。 云 计算 是 管理 大 数据 的 重要 工具 。 因 此 ， 

















随后 的 整 本 书 中 的 大 量 论述 与 大 数据 管理 和 分 析 有 关 。 
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第 一 部 分 总 结 





第 一 部 分 概述 了 云 的 支撑 技术 。 特 别 是 ， 我 们 讨论 了 计算 的 演进 、 安 全 技术 以 及 数 





据 、 信 息 和 知识 管理 。 我 们 选择 了 这 些 技 术 ， 因 为 它们 与 本 
品 和 实验 系统 相关 。 











中 讨论 的 概念 、 技 术 、 产 


第 2 前 简要 概述 了 计算 的 演进 。 我 们 讨论 了 数学 逻辑 学 家 的 工作 、 冯 … 诺 依 曼 机 
器 ， 以 及 从 大 型 机 到 个 人 计算 机 的 计算 机 演进 。 最 后 ， 我 们 概述 了 分 布 式 计 算 、 万 维 网 














服务 计算 和 云 计 算 。 








第 3 童 简要 介绍 了 可 靠 系 统 的 发 展 情况 。 我 们 讨论 了 安全 系统 ， 包 括 访问 控制 中 的 
基本 概念 ， 以 及 自主 和 强制 性 策略 ， 安 全 系统 的 类 型 ， 如 安全 操作 系统 、 安 全 数据 库 、 








安全 网 络 和 新 兴 技 术 、 网 络 的 影响 以 及 构建 安全 系统 的 步骤 。 





接 下 来 ,我 们 讨论 了 可 靠 














的 系统 ， 包 括 信任 、 隐 私 、 完 整 性 、 质 量 和 实时 处 理 方面 。 然 后 ， 我 们 更 多 地 关注 安全 














威胁 和 解决 方案 的 方面 。 最 后 ， 我 们 提供 了 使 用 不 可 信 组 件 的 安全 系统 的 概述 。 


第 4 章 讨论 了 数据 、 信 息 和 知识 管理 的 内 容 。 首 先 ， 我 们 讨论 了 数据 管理 和 复杂 的 


数据 管理 。 然 后 ， 我 们 讨论 了 信息 管理 和 知识 管理 。 特 别 是 ， 








我 们 讨论 了 数据 模型 、 数 


据 库 系 统 、 多 媒体 和 地 理 空间 数据 管理 、 数 据 仓库 、 数 据 挖掘 、 信 息 检索 、 电 子 商 务 和 








信息 共享 。 
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第 二 部 分 服务 安全 技术 


第 二 部 分 简介 

Web 服务 是 云 计算 的 核心 。 这 是 因为 云 问 消费 者 提供 基础 设施 服务 、 平 台 服务 和 
应 用 服务 等 各 种 服务 。 因 此 ， 我 们 将 在 第 二 部 分 讨论 服务 技术 以 及 服务 的 安全 问题 。 

第 二 部 分 包含 3 Hi. 第 5 音 、 第 6 章 、 第 7 章 。 第 5 章 论 述 Web 服务 以 及 安全 的 
Web 服务 。 首 先 ， 论 述 服 务 的 含义 。 其 次 ,讨论 面向 服务 的 计算 的 高 级 概念 。 接 着 ， 我 
们 讨论 通过 面向 服务 架构 (SOA) 和 Web 服务 实现 的 信息 系统 。 最 后 ,论述 服 务 的 安 
全 问题 。 第 6 EERE Web 服务 ,这 是 由 于 我 们 云 中 的 一 些 原型 利用 了 语义 Web 技 
术 。 第 7 章 以 “专用 的 、 安 全 的 Web 服务 ”为 主题 进行 论述 ， 例 如 数据 管理 服务 。 
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第 S 章 面向 服务 的 计算 和 安全 


5.1 概述 





如 第 1 章 所 述 ， 近 60 年来， 计算 范式 已 经 有 很 大 的 发 展 。 起 初 ， 计 算 机 被 用 作 数 
字 的 处 理 。 后 来 ， 它 被 用 来 存储 和 管理 数据 库 中 的 数据 。 在 数据 库 为 中 心 的 计算 模式 
里 ， 世 界 被 看 作 是 表 的 合集 。 再 之 后 ， 就 转移 到 了 面向 对 象 的 计算 模式 。 在 面向 对 象 的 
计算 模式 中 ， 世 界 是 一 系列 对 象 的 合集 。 数 据 库 不 仅 被 看 作 是 对 象 的 合集 ， 而 且 对 象 也 
是 主要 的 计算 单元 。 最 近 ， 世 界 已 经 演变 成 一 系列 服务 的 合集 。 从 根本 上 来 说 ， 任 何 一 
个 客户 都 需要 从 一 个 服务 提供 商 那 里 请 求 一 个 服务 。 服 务 提 供 商 要 和 客户 制定 一 份 协 
议 ， 即 提供 服务 时 ， 客 户 为 该 服务 买单 。 服 务 可 能 是 医疗 保健 服务 、 金 融 服务 或 者 电信 
服务 等 各 种 服务 。 这 产生 了 被 称 为 面向 服务 的 计算 或 服务 计算 ( 另 见 本 章 参考 文献 
[ZHANO7] 和 [ERILO5])。 换 言 之 ， 面 向 服务 的 计算 将 世界 看 作 是 服务 的 合集 。 这 些 
服务 由 服务 提供 商 所 提供 ， 被 客户 所 利用 。 此 外 ， 服 务 已 经 成 为 云 计算 的 心脏 和 灵魂 ， 
因为 云 计算 为 客户 提供 了 一 系列 服务 。 

面向 服务 计算 的 安全 性 已 经 成 为 关键 的 问题 。 例 如 ， 考 虑 从 代理 商 订购 图 书 的 过 
程 。 我 们 查阅 该 代理 商 发 布 的 目录 。 此 时 ， 该 代理 商 必 须 确保 我 们 有 权 阅 读 有 关 图 书 的 
HA ( 即 元 数据 ) 。 接 着 可 以 下 订单 。 如 果 有 必要 ， 该 代理 商 应 授予 我 们 相应 阅读 部 分 
内 容 的 权限 。 随 之 书籍 中 相应 的 部 分 将 被 呈现 给 我 们 (客户) 阅读 。 现 在 这 种 安全 的 
服务 已 经 能 通过 软件 实现 ， 其 过 程 如 下 : 客户 查看 代理 商 的 网 站 ， 找 到 书籍 并 下 订单 。 
该 网 站 只 会 显示 客户 授权 查看 的 图 书 。 安 全 的 订单 管理 服务 由 代理 商 实 现 ， 包 括 收集 订 
单 ， 发 送 一 条 消息 给 仓库 服务 并 请 求 该 书籍 。 当 仓库 服务 发 现 该 书 在 它 的 清单 目录 中 就 
发 送 一 条 消息 给 订单 管理 服务 。 仓 库 调 用 安全 服务 ， 并 发 送 书 籍 中 相应 的 部 分 给 运输 服 
务 。 然 后 ， 运 输 服 务 将 书籍 运送 给 客户 。 如 果 该 书籍 需 以 电子 的 方式 显示 ， 那 么 书籍 中 
相应 的 部 分 可 能 通过 订单 管理 服务 进行 展示 。 因 此 ， 从 订单 管理 服务 、 仓 库 服务 和 运输 
服务 开始 ， 就 需要 组 成 安全 的 服务 。 这 三 项 服务 为 客户 提供 了 他 想 要 的 内 容 。 所 有 这 些 
服务 必须 加 以 合适 的 安全 控制 。 在 实施 安全 服务 时 ,我 们 需要 采取 措施 ， 进 行 访问 控 
制 、 信 任 管理 和 隐私 控制 。 男 外 ， 客 户 得 到 的 文件 必须 是 真实 可 信 的 ， 这 就 意味 着 服务 
必须 保持 完整 性 。 

服务 计算 是 云 计算 环境 的 基本 功能 ， 基 础 设施 、 平 台 和 软件 作为 服务 由 云 对 外 提 
供 。 因 此 ， 在 这 一 章 中 我 们 将 论述 面向 服务 的 计算 和 其 周边 的 安全 问题 ， 因 为 它们 对 安 
全 云 计算 至 关 重 要 。 在 5.2 节 ， 我 们 将 给 出 面向 服务 计算 的 概述 。 服 务 计 算 的 关键 内 容 
是 SOA、Web 服务 (WS) 和 SOAD。 在 5.3 节 中 ,我 们 将 论述 面向 服务 计算 的 安全 问 
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题 。 其 中 包括 访问 控制 、 身 份 管理 、 一 些 新 兴 的 网 络 安全 标准 以 及 安全 模型 。 图 5. 1 说 
明了 这 些 概念 。 本 章 论述 的 概念 、 技 术 、 标 准 和 协议 现 被 用 于 提供 云 服 务 和 保障 云 服 
务 。 这 些 云 服 务 将 在 本 书 的 第 四 部 分 和 第 六 部 分 被 论述 。 
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图 5.1 面向 服务 的 计算 和 安全 


5.2 面向 服务 的 计算 


52.1 服务 模式 


为 了 更 好 地 解释 服务 的 概念 ， 我 们 可 以 举 电信 的 例子 。 当 我 们 想 使 用 电话 服务 时 ， 
我 们 会 在 AT&T 或 Sprint 或 其 他 服务 提供 商 中 选择 一 个 进行 注册 。 我 们 也 可 能 会 在 黄页 
或 者 一 些 报 纸 的 广告 中 了 解 它 们 。 无 论 选 定 哪 一 个 服务 提供 商 ， 我 们 都 可 以 和 他 们 商谈 
以 求 获得 最 好 的 服务 。 一 旦 我 们 选 定 了 服务 提供 商 ， 那 么 服务 提供 商 提 出 的 协议 随 之 而 
来 。 如 果 我 们 签署 了 协议 ， 就 可 以 使 用 服务 提供 商 的 电话 线路 与 我 们 的 朋友 、 亲 威 以 及 
商业 组 织 进 行 电话 通信 。 同 样 地 ， 对 于 电子 邮件 服务 来 说 ， 服 务 提供 商 要 么 在 黄页 ， 要 
么 在 网 页 上 发 布 它 的 服务 。 当 我 们 连接 到 服务 提供 商 ， 与 之 签署 协议 ， 然 后 就 可 使 用 他 
们 提供 的 电子 邮件 服务 。 在 这 两 种 情况 下 ， 服 务 提供 商都 将 以 一 些 我 们 能 够 理解 的 语言 
发 布 它 们 的 服务 。 

现 如 今 ， 我 们 正在 使 用 大 量 的 服务 ， 不 仅 包 括 电话 服务 和 电子 邮件 服务 ， 而 且 还 包 
括 医疗 保健 服务 和 金融 服务 等 。 有 了 医疗 保健 服务 提供 商 ， 我 们 可 以 咨询 自身 的 健康 情 
况 。 金 融 服务 提供 商 帮 有 我 们 理财 ， 甚 至 牧师 也 可 以 成 为 我 们 的 服务 提供 商 ， 诸 如 宗教 服 
务 。 数 据 和 软件 也 可 以 作为 服务 来 提供 。 就 数据 而 言 ， 各 种 数据 中 心 存 储 了 大 量 的 数据 
并 人 允许 客户 将 它们 用 于 各 种 用 途 。 而 对 软件 而 言 ， 一 些 软件 公司 开发 了 客户 关系 管理 和 
医疗 保健 管理 软件 ， 并 人 允许 客户 以 服务 的 形式 使 用 这 些 软件 。 

面向 服务 的 计算 对 于 以 实现 软件 即 服务 至 关 重 要 。 一 个 典型 的 例子 是 订购 机 票 。 客 
户 打 电话 给 航空 预约 系统 ， 同 代理 商 对 话 ， 代 理 商 负责 预订 座位 并 把 机 票 发 给 客户 。 有 
了 面向 服务 计算 ， 客 户 就 可 以 在 线 预 订 机 票 ， 系 统 中 的 预订 服务 自 查 找 一 个 座位 ， 到 分 
配 该 座位 给 客户 。 同 时 ， 该 服务 可 以 询问 客户 是 否 需要 预订 酒店 ， 并 自动 向 酒店 预订 服 
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务 发 送信 息 并 为 客户 预订 酒店 客 
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房 。 接 下 来 ， 该 服务 向 租车 服务 发 | 服务 消费 者 Eu kde 
送 一 条 消息 以 进行 预约 ， 并 最 终 向 | UE Em 
客户 发 送 消息 。 航 班 预订 服务 、 酒 p 

店 预订 服务 和 预订 租车 服务 组 成 一 图 5.2 面向 服务 计算 的 例子 








个 完整 的 服务 ， 也 就 是 说 多 种 服务 
可 以 构成 的 一 个 服务 。 图 5. 2 为 

需要 注意 的 是 ， 虽 然 在 面向 
看 成 是 一 个 服务 。 然 而 ， 服 务 的 真正 实现 可 能 要 用 到 许多 程序 包 或 者 甚至 是 多 个 对 象 。 


我 们 认为 面向 服务 的 计算 仍 处 于 起 步 和 概念 阶段 。 随 着 我 们 在 这 一 领域 的 进步 ， 适 合 面 








这 个 例子 的 服务 流程 。 
对 象 计算 中 的 计算 单元 是 一 个 对 象 ， 但 是 我 们 可 以 把 它 




















向 服务 计算 的 语言 也 许 能 被 开发 出 来 。 有 必要 指出 的 是 ， 目 前 面向 服务 计算 中 的 大 多 数 

应 用 程序 都 是 基于 Web 的 应 用 程序 ， 特 别 是 与 电子 商务 有 关 的 应 用 程序 。 

5.2.1.1 SOA 和 Web 服务 
SOA 是 使 用 软件 技术 实现 服务 的 系统 架构 。 在 这 个 体系 结构 中 ， 有 3 个 主要 组 件 ; 








服务 消费 者 、 服 务 提供 商 和 有 
服务 消费 者 请 求 目 录 来 发 现 月 
址 。 随 之 ， 服 务 消费 者 联系 有 























区 务 目 录 。 服 务 提供 商 以 服务 目录 的 标准 语言 发 布 其 服务 。 
民 务 。 服 务 目 录 向 服务 消费 者 提供 服务 提供 商 的 名 称 或 者 地 
As 提供 商 。 许 多 服务 软件 都 是 通过 Web 技术 实现 的 。 




















此 ， 实 现 SOA 的 服务 技术 称 为 WS (Web 服务 ，WS)。 服 务 提供 商 在 一 个 基于 Web 的 


目录 上 发 布 它 的 服务 。 月 
Web 的 目录 被 称 作 “ 通 











及 务 消费 者 查询 这 个 目录 以 引导 自己 找到 服务 提供 商 。 这 种 基于 
用 的 描述 、 发 现 与 集成 ” ( Universal Description, Discovery, and 











Integration，UDDI) 。 用 于 发 布 服务 的 语言 叫 作 “Web 服务 描述 语言 ” ( Web Services De- 
scription Language, WSDL). Æ 3 个 组 件 之 间 交 换 的 消息 使 用 称 为 SOAP 的 协议 。 消 息 
传递 用 XML 实现 。 图 5. 3 为 使 月 
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SOA 及 其 设计 
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提供 商 








15.3 SOA 和 Web 服务 








我 们 都 知道 ， 在 面向 对 象 的 信息 系统 中 ， 首 先 需 要 识别 对 象 、 对 象 类 、 方 法 以 及 对 
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象 之 间 的 关系 。 此 外 ， 还 要 分 析 这 些 对 象 的 活动 并 纳入 到 系统 的 设计 中 。 这 种 被 称 为 面 
向 对 象 的 分 析 和 设计 (OOAD) 的 方法 已 经 被 大 家 所 熟知 ，UML 也 被 看 作 是 现在 标准 的 
OOAD 方法 。 一 旦 设计 了 一 个 系统 ， 接 着 就 要 选择 适当 的 对 象 语言 来 实现 。 类 似 地 ， 在 
设计 面向 服务 的 信息 系统 之 前 ， 我 们 需要 和 弄 清 楚 需 要 什么 服务 ， 这 些 服务 如 何 构 成 ， 它 
们 如 何 组 织 在 一 起 以 及 这 些 服务 之 间 有 什么 样 的 关系 。 这 种 方法 被 称 为 面向 服务 的 分 析 
和 设计 (SOAD)。 

相对 于 OOAD 的 成 熟 ，SOAD 仍 处 于 起 步 阶段 。 例 如 ， 在 我 们 设计 一 个 实现 航班 预 
订 功 能 的 信息 系统 之 前 ， 首 先 ， 我 们 需要 确定 涉及 哪些 服务 ? 这 些 服务 可 能 包括 航班 座 
位 预订 、 酒 店 房间 预订 和 出 租车 预订 。 接 下 来 ， 我 们 要 分 析 这 些 服务 之 间 的 关系 。 我 们 
可 以 在 航班 座位 预订 的 服务 页 面 发 出 预订 酒店 房间 的 请 求 ， 也 可 以 请 求 出 租车 预订 或 者 
再 次 进行 航班 座位 预订 。 两 个 服务 可 能 并 行 或 依次 调用 。 一 旦 设计 好 这 些 服务 以 及 各 个 
服务 之 间 的 关系 ， 后 面 就 要 制定 服务 描述 。 图 5.4 说 明了 SOAD 在 面向 服务 的 信息 系统 
设计 中 的 应 用 。 

通过 WS 和 SOA 实现 的 服务 将 在 5. 2. 2 WR, SOAD 将 在 5.2.3 节 论 述 。 







































































面向 服务 的 分 应 用 描述 这 些 服务 


和 它们 之 
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图 5.4 面向 服务 的 分 析 与 设计 


5.2.2 SOA 和 Web 服务 


在 5.2.1 55, 我们 介绍 了 服务 计算 的 概念 〈 也 被 认为 是 面向 服务 计算 ) ， 讨 论 了 服 
务 计算 的 各 个 方面 。 在 这 一 小 节 ， 我 们 将 通过 SOA 和 WS 来 阐述 服务 计算 。SOA 是 实 
现 面向 服务 计算 的 体系 结构 。WS 是 通过 万 维 网 (WWW) 实现 面向 服务 计算 的 一 种 方 
式 。 最 流行 的 面向 服务 计算 的 实现 方式 就 是 SOA 和 WS。WS 由 又 3C (万 维 网 联盟 ) 和 
OASIS 等 组 织 提 出 的 各 种 标准 定义 。 

在 本 节 中 ， 我 们 将 调研 标准 化 组 织 关于 正在 定义 的 WS， 然 后 描述 SOA 范式 ，WS 
协议 栈 以 及 实现 WS 的 替代 方法 ， 即 Restful WS。 之 后 再 讨论 一 种 流行 的 Web 服务 技 
术 ， 它 或 多 或 少 地 导致 第 一 个 云 得 以 实现 ， 即 亚马逊 网 络 服务 [AMAZON], fla, 
论述 各 种 各 样 云 计 算 中 的 专业 服务 。 我 们 会 通过 本 节 内 容 给 出 几 个 参考 文献 ， 这 些 参考 
文献 实际 上 是 一 些 URL (通用 资源 定位 符 ) ， 在 这 些 网 站 中 描述 各 种 标准 的 发 展 历程 。 
正如 我 们 在 本 书 中 强调 的 一 样 ，WS 技术 正在 迅速 发 展 。 因 此 ， 本 书 的 论述 可 能 会 随 着 
技术 的 发 展 而 过 时 。 我 们 极力 主张 读者 跟 上 OASIS 和 W3C 这 些 标准 化 组 织 的 发 展 步伐 。 
这 也 是 我 们 没有 挖掘 标准 细节 的 一 个 主要 原因 。 我 们 的 目标 是 站 在 更 高 的 层次 去 介绍 各 
种 概念 。 

对 于 SOA 和 WS 来 说 ， 两 大 主要 标准 化 组 织 是 W3C 和 OASIS。W3C 已 经 为 XML 和 
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ESR SARI ARB ( 
安全 的 XML 制定 了 标准 ， 其 中 包括 XML 加 密 和 XML 签名 技术 标准 。 男 外 W3C 也 已 经 
为 语义 化 网 络 、 资 源 描 述 框 架 (Resource Description Framework, RDF), Web 本 体 语 言 
(Web Ontology Language, OWL), if X Web 规则 语言 (Semantic Web Rule Language, 
SWRL) 以 及 许多 其 他 相关 技术 开发 出 了 标准 。OASIS 已 经 为 WS 的 认证 和 授权 制定 了 
标准 ， 其 中 包括 安全 声明 标记 语言 (Security Assertions Markup Language, SAML) 和 可 
扩展 访问 控制 标记 语言 (eXtensible Access Control Markup Language, XACML), 。 另 外 ， 
WS 安全 (WS -Security) 以 及 WS - * 安全 框架 (WS - * Security Framework) 是 OA- 
SIS 制定 的 主要 安全 标准 [ OASIS], 
另 一 个 重要 的 标准 化 组 织 是 WS 
协同 组 织 ( Web lun ier OGC: 开放 地 理 空间 信息 联盟 
bility, WS-1), Be WS -I XA tl OASIS: 结构 化 信息 标准 促进 组 织 
定 标准 ， 但 他 们 监督 正在 开发 的 标 
准 。 还 有 一 个 与 安全 WS 相关 联 的 团 
体 是 自由 联盟 (Liberty Alliance) 。 这 图 5.5 为 服务 的 标准 化 组 织 
个 组 织 已 经 为 号 份 管理 提出 了 标准 。 一 些 其 他 组 织 ， 例 如 对 象 管理 组 织 ( Object Man- 
agement Group, OMG) 和 开放 地 理 空间 信息 联盟 ( Open Geospatial Consortium, OGC) 
也 已 经 制定 了 WS 的 相关 标准 。 图 5.5 为 与 SOA 和 WS 相关 的 标准 化 组 织 。 
正如 [OASIS] Brig X, WS 指 的 是 允许 进行 连接 的 技术 ， 连 接 在 一 起 的 服务 是 通 
过 使 用 WS 实现 的 。WS 的 典型 例子 是 查询 服务 和 目录 服务 。 每 个 服务 都 是 一 条 连接 的 
端点 。 也 有 一 些 服务 需要 底层 的 计算 机 系统 ， 它 们 用 来 支持 提供 连接 。 一 个 组 织 内 部 和 
外 部 的 服务 组 合 构成 一 个 完整 的 SOA。 
SOA 支持 服务 集 [ERL05 ] 。 服 务 之 间 彼 此 是 可 以 相互 通信 的 。 通 信 可 能 涉及 简单 
的 数据 传递 ， 也 可 能 涉及 两 个 或 多 个 服务 协调 活动 ， 如 规划 旅行 。 将 服务 相互 连接 需要 
一 些 方法 。SOA 并 不 是 一 种 全 新 的 技术 。 最 初 的 SOA 可 以 被 认为 是 分 布 式 组 件 对 象 模 
型 (Distributed Component Object Model, DCOM) 和 基于 公共 对 象 请 求 代理 体系 结构 规 
范 [OMG] (Common Objectrequest Architecture, CORBA ) 的 对 象 请 求 代理 (Object Re- 
quest Brokers, ORB), 。 如 果 让 SOA 有 效 运 转 ， 我 们 需要 清楚 地 了 解 服务 这 一 术语 。 服 务 
是 一 种 功能 ， 需 要 精确 定义 、 自 称 一 体 ， 不 依赖 于 其 他 服务 的 上 下 文 或 状态 。 
SOA 有 三 大 主要 方面 : 服务 提供 商 、 服 务 消费 者 和 服务 目录 。 服 务 提供 商 在 服务 
目录 上 发 布 他 的 服务 。 服 务 消费 者 去 向 服务 目录 请 求 服务 。 服 务 目录 回 送 服务 的 名 字 和 
地 址 。 服 务 消费 者 然后 发 送 请 求 给 服务 提供 商 并 获得 该 服务 。 到 目前 为 止 ，WS 就 是 
SOA 实现 的 最 普遍 方法 。 接 下 来 ， 我 们 将 论述 具有 WS 的 SOA 实现 的 具体 技术 细节 和 
参数 。 
5.2.2.1 WS 模型 
最 初 的 Web 模型 是 基于 客户 端 服务 咒 模式 ， 在 这 种 模式 中 ，Web 客户 端 通过 超 文 
本 传输 协议 ( Hypertext Transfer Protocol, HTTP) 访问 一 个 Web 服务 器 。Web 服务 器 通 
常 存储 一 些 网 页 ， 客 户 可 以 请 求 检索 它们 。 尽 管 这 种 模式 对 于 显示 网 页 是 胜任 的 ， 但 是 
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对 于 处 理 站 点 上 的 电子 商务 活动 是 不 足 的 。 因 为 电子 商务 中 ， 多 个 公司 必须 合作 才能 
完成 一 个 共同 的 目标 。 在 这 种 环境 下 ， 多 个 公司 之 间 可 能 是 异步 通信 ， 且 每 个 组 织 都 有 
可 能 为 另 一 家 组 织 提供 服务 。 因 此 ， 我 们 需要 一 个 更 强 而 有 力 的 机 制 去 处 理 电子 商务 。 

在 20 世纪 90 年 代 后 期 至 2000 年 早期 ， 出 现 了 第 二 代 网 络 技术 ， 它 们 的 功能 不 只 
是 以 往 的 网 页 展示 ， 客 户 还 可 以 在 网 站 上 购买 物品 。 与 此 同时 ， 面 向 服务 的 概念 诞生 
了 ， 电 子 商 务 和 面向 服务 计算 融合 为 一 体 。 这 造就 了 WS 的 产生 。 

WS 技术 是 最 适合 实现 SOA 的 连接 技术 。WS 本 质 上 是 利用 XML 技术 建立 一 个 强 连 
接 。 一 个 服务 消费 者 发 送 一 个 服务 请 求 给 服务 提供 商 。 服 务 提供 商 返回 给 消费 者 一 个 应 
答 消 息 。 这 种 请 求 与 随后 应 答 的 连接 需要 以 消费 者 和 服务 提供 商 双 方 都 能 理解 的 某 种 方 
式 来 定义 。 一 个 服务 提供 商 也 可 以 作为 一 个 服务 消费 者 存在 。WSDL 构成 了 WS 的 基 
础 ， 它 使 用 XML 来 定义 消息 。 服 务 提供 和 使 用 服务 的 过 程 如 下 : 
图 服务 提供 商 使 用 WSDL 描述 其 服务 。 这 种 描述 定义 被 发 布 到 一 个 服务 目录 ， 它 
可 能 是 UDDI 目录 ， 也 可 能 是 其 他 形式 的 目录 。 

Bl 服务 消费 者 向 目录 提出 一 个 或 多 个 查询 来 定位 一 个 服务 ， 并 确定 如 何 与 对 应 服 
务 通信 。 

W 服务 提供 商 所 提供 的 WSDL 的 一 部 分 信息 传递 给 服务 消费 者 。 这 可 以 让 服务 消 
费 者 了 解 这 些 请 求 和 应 答对 于 服务 提供 商 来 说 意味 着 什么 。 

B 服务 消费 者 使 用 WSDL 向 服务 提供 商 发 送 一 个 请 求 。 

图 服务 提供 商 提 供给 服务 消费 者 一 个 之 前 预订 的 回应 。 

UDDI 注册 表 是 被 最 终 充当 “发 现 ”WS 的 手段 使 用 ， 当 然 WS 都 是 用 WSDL 描述 
的 。 我 们 可 以 通过 各 种 方式 搜索 UDDI 注册 表 ， 以 获取 联系 信息 和 各 种 组 织 需 要 的 WS。 
UDDI 注册 表 是 一 种 实现 与 各 种 组 织 目前 使 用 的 WS 保持 最 新 同步 状态 的 方式 。 能 够 替 
代 UDDI 的 是 电子 商务 可 扩展 标记 语言 (electronic business using eXtensible Markup Lan- 
guage, ebXML) 目录 。 所 有 的 消息 都 使 用 SOAP 发 送 。 (SOAP 一 度 代 表 着 简单 对 象 访 
问 协议 ， 目 前 这 个 首 字 母 缩写 词 没 有 这 个 特别 的 含义 ) SOAP 实际 上 提供 了 一 个 发 送 
WS 消息 的 信封 。SOAP 通常 使 用 HTTP 实现 ， 但 也 不 排除 使 用 其 他 的 连接 方式 。 另 外 ， 
安全 和 授权 认证 也 是 WS 非常 重要 的 话题 。 
5.2.2.2 WS 的 构成 

WS 可 以 由 多 个 WS 构成 。 例 如 ， 顾 客 可 能 向 旅游 服务 发 出 请 求 旅行 。 然 后 ， 旅 游 
服务 将 请 求 3 个 服务 : 航空 服务 、 酒 店 服务 和 租车 服务 。WSDL 将 详细 说 明 这 些 服 务 并 
用 UDDI 注册 它们 。 然 而 ， 我 们 也 需要 一 种 语言 来 详细 描述 服务 的 流程 。 为 此 而 开发 的 
语言 是 业务 流程 执行 语言 (Business Process Execution Language，BPEL) 。 有 一 种 特定 的 
BPEL 经 常 被 使 用 ， 由 IBM 和 微软 提出 ， 被 称 为 BPELAWS (BPEL for WS) 。 

有 了 WS， 预订 航班 、 酒 店 和 汽车 时 ， 预 订 次 序 并 不 重要 。BPEL 声明 将 以 XML 格 
式 实现 ， 并 将 发 出 航班 预订 、 酒 店 预订 和 出 租车 预订 的 请 求 。 然 后 ， 对 于 任意 服务 ， 
WSDL 将 详细 描述 这 些 服务 的 执行 操作 。 如 果 现 在 预订 航班 的 次 序 是 最 重要 的 ， 那 么 
BPEL 就 要 建构 服务 请 求 的 顺序 。 对 于 BPEL 的 更 多 细节 ， 我 们 可 以 参考 本 章 参考 文献 
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[SRIV]。 图 5.6 Jy WS 的 构成 。 
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服务 请 求 者 c 
Web 服 务 (WS)A Web 服 务 (WS)B Web 服 务 (WS)C 


图 5.6 WS 的 构成 


5.2.2.3 WS 协议 


WS 通过 协议 栈 来 定义 ， 栈 里 面包 括 元 数据 、 消 息 传 递 


安全 、 管 理 和 业务 领域 的 相关 说 明 。 我 们 将 介绍 











据 、 消 息 传递 以 及 事务 和 业务 流程 。 图 
5.7 说 明了 WS 协议 栈 的 构成 。 

元 数据 协议 包括 元 数据 检索 (WS - 
元 数据 交换 )、 数 据 服务 和 消息 描述 
[WSDL], Ri% (WS - Policy, WS - Policy 
Assertions) 以 及 发 布 和 发 现 [ UDDI ], 
[WSIL] (WS 服务 检视 语言 Web Service 
Inspection Language， 简 写 为 WSIL )。 在 
5.2.2.1 WF, RINER T WSDL 和 UD- 





事务 和 业务 流程 、 接 口 、 





协议 栈 的 一 些 重要 概念 ， 它 们 是 : 元 数 


编排 /编制 协议 
服务 发 现 协议 : UDDI 
服务 描述 协议 : WSDL 
消息 发 送 协议 : SOAP，XML 
传输 协议 : TCP/IP 





图 5.7 Web 服务 协议 栈 








DI, WS 元 数据 交换 实质 上 给 出 了 其 他 终端 节点 去 访问 WS 需要 获取 的 元 数据 。 正 如 在 
本 章 参考 文献 [META] 中 所 描述 的 那样 ,“ 引 导 与 Web 服务 之 间 的 通信 ， 此 规范 定义 
了 如 何 将 元 数据 视 为 资源 进行 检索 ， 如 何 将 元 数据 能 入 到 Web 服务 端点 中 引用 ， 以 及 
Web 服务 端点 如 何 选择 性 支持 “请 求 - 响应 ”交互 以 用 于 检索 元 数据 ”。WS - Policy 提 















































供 了 一 个 策略 框架 用 于 指定 不 同 的 策略 和 可 选 策略 。 如 本 章 参 考 文献 [POLICY] 所 述 ， 


“WS - Policy 提供 了 一 种 灵活 可 扩展 的 语法 ， 用 于 表达 基于 XML Web 服务 的 系统 中 实 
体 的 功能 、 要 求 和 一 般 特 征 。WS - Policy 定义 了 一 个 框架 和 一 个 模型 ， 用 于 将 这 些 属性 
作为 策略 表达 出 来 。“WS - Policy Assertions” 声 明 指 定 了 一 种 语言 ， 通 过 该 语言 可 以 描 








述 策略 [PA], 














如 本 章 参 考 文献 [ WSIL] 所 述 ，WS - Inspection 语言 (WSILL) 规范 提供 了 一 种 
XML 格式 ， 用 于 协助 检查 可 用 服务 的 站 点 ; 同时 提供 了 一 组 规则 ， 用 于 将 这 些 相关 检 

















查 信 息 用 于 消费 。 




















消息 传输 协议 包括 以 下 方面 : 消息 封装 [SOAP], [MTOM] (消息 优化 传输 机 制 ， 
Message Transmission Optimization Mechanism) 、 可 人 靠 消息 传输 (WS - ReliableMessaging, 
WS 消息 可 靠 传输 ; WS - Reliability, WS 可 靠 性 ) 、 路 由 选择 或 寻 址 (WS - Addressing, 
WS hE; WS - MessageDelivery, WS 消 息 交 付 ) 、 多 路 消息 会 话 (WS - Enumeration, 
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WS 枚 举 ; WS -Transfer，WS 转移 ) 、 事 件 和 通知 (WS - Events, WS 事件 ; WS - Notif- 
cation, WS 通知 ) 。 在 5. 2.2.1 节 中 ,我 们 论述 了 SOAP, MTOM 提供 了 一 种 在 WS 之 间 
交换 信息 的 优化 机 制 并 且 可 以 与 SOAP 共同 使 用 。WS - Reliable Messaging 是 OASIS 的 一 
个 标准 ， 其 允许 节点 之 间 进 行 可 靠 消息 的 交换 ( 见 本 章 参 考 文献 [ RELIABILITY ]) 。 
正如 在 本 章 参考 文献 [ RELIABILITY] 中 描述 的 那样 ，WS - Reliability 是 一 种 通用 和 开 
放 的 模型 ， 用 于 确保 WS 的 可 靠 消 息 传递 。 本 质 上 讲 ，WS - Reliability 和 WS - Reliable 
Messaging 是 拥有 许多 共性 并 有 旦 相互 竞争 的 标准 。 在 本 章 参考 文献 [RELIABILITY] 中 
也 指出 ，WS - Reliable Messaging 将 取代 WS - Reliability, WS — Addressing 是 一 种 传输 中 
立 机 制 ， 用 来 寻 址 WS 和 识别 WS 节点 [ ADDRESS]。 另 一 种 路 由 协议 是 WS - Message 
Delivery， 它 提供 了 一 种 “在 消息 交换 模式 (Message Exchange Patten, MEP) 的 上 下 文 
中 传递 和 关联 消息 的 机 制 ， 这 种 机 制 在 服务 描述 中 能 够 被 发 现 ”"。 为 了 建立 或 者 使 用 通 
信 信 道 ，MEP 描述 了 一 种 通信 协议 所 需要 的 消息 模式 ( 见 本 章 参 考 文献 [ MEP]). iH 
息 交 换 有 两 种 主要 模式 : 一 种 是 请 求 应 答 模 式 ， 一 种 是 单 向 模式 。 例 如 ,传输 控制 协议 
(Transmission Control Protocol, TCP) 使 用 请 求 应 答 模 式 ， 而 用 户 数据 报 协议 (User Dat- 
agram Protocol, UDP) 使 用 单 向 模式 。WS - Enumeration 是 一 个 规范 ,“ 它 描述 如 何 使 一 
个 应 用 能 够 从 Web 服务 上 拥有 的 数据 列表 中 查询 相关 内 容 。 因 此 ，WS - Enumeration 对 
于 读 取 事件 日 志 、 消 息 队列 或 其 他 数据 集合 非常 有 用 ” ( 见 本 章 参 考 文献 [ENUM] ) 。 
WS - Transfer 是 用 XML 定义 来 传输 WS — addressable 资源 的 一 种 规范 ， 它 同样 可 以 创建 
和 删除 这 些 资源 ( 见 本 章 参 考 文献 [ ADDRESS] ) 。WS - Eventing 用 于 WS (作为 用 户 ) 
向 另 一 个 Web 服务 〈 可 信 第 三 方 ) 和 注册， 以 便 在 某 些 事件 发 生 时 通知 它 (Wade 
文献 [EVENT] ) WS - Notification 是 一 系列 规范 的 集合 ， 可 以 向 多 个 WS 通知 各 种 事 
件 发 生 情况 ( 见 本 章 参考 文献 [NOTIFY] ) 。 

用 于 事务 和 业务 处 理 的 协议 包括 以 下 类 型 : 业务 流程 (BPELAWS, WS- CDL), ， 事 
务 (WS- Transaction; WS - Coordination; WS 协调 ; WS - CAF, WS 复合 应 用 框架 ， 
Web Services Composite Application Framework ) 和 异步 服务 (ASAP), 1E5.2.2.2 WP, 
我 们 已 经 论述 了 BPELAWS, WS -CDL 是 Web 服务 编排 描述 语言 (Web Services Chore- 
ography Description Language, WS - CDL) 。 在 本 章 参 考 文献 [BPEL] 中 有 这 样 的 阐述: 
“尽管 BPEL 是 一 种 用 于 指定 参与 者 在 编排 中 行为 的 编程 语言 ， 它 描述 了 参与 者 之 间 的 
消息 交换 。 所 有 参与 者 在 编排 时 都 是 同等 地 位 的 ， 没 有 控制 中 心 。” WS - CDL 作为 一 种 
基于 XML 的 语言 ， 本 质 上 用 于 描述 多 方 参与 者 /代理 之 间 的 对 等 协作 。WS - Transaction 
规定 了 WS 域 之 间 事 务 互 操作 性 的 机 制 ( 见 本 章 参考 文献 [TRANS] ) WS - Coordina- 
tion 描述 了 一 个 可 扩展 框架 ,用 于 提供 协议 来 协调 分 布 式 应 用 程序 的 操作 〈 见 本 章 参考 
文献 [COORD] ) WS - CAF 是 由 OASIS 开发 的 开放 框架 ， 以 便 组 合 使 用 包含 多 个 服务 
的 应 用 程序 。 此 类 应 用 程序 称 为 复合 应 用 程序 ( 见 本 章 参考 文献 [CAF])。ASAP (A- 
synchronous Services Access Protocol, $¢ #7 IR W PW) 是 一 种 OASIS 标准 ， 它 对 
SOAP 进行 了 扩展 ,支持 通用 异步 WS 或 长 时 间 运 行 的 Web 服务 ( 见 本 章 参 考 文献 
[ASAP]). 
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5.2.2.4 REST 

在 前 面 ， 我 们 已 经 讨论 了 包括 HTTP, SOAP 和 WSDL 在 内 的 WS 的 基本 组 件 。 然 
而 ， 设 计 软 件 系 统 还 可 以 有 一 种 不 基于 HITP 和 WWW 的 替代 方案 ， 这 种 方法 称 为 
REST (代表 性 传输 接口 ) 。REST 在 其 维基 百科 条 目 中 描述 如 下 ( 见 本 章 参 考 文献 
[REST]): REST 中 的 一 个 重要 方面 是 资源 (特定 信息 的 来 源 ) 的 存在 ， 每 个 资源 都 有 
全 局 标识 符 (例如 ，HTTP 中 的 URL)。 为 了 使 用 这 些 资源 ， 网 络 组 件 (用 户 代理 和 源 
服务 器 ) 通过 标准 化 接口 (例如 ，HTTP) 进行 通信 ， 并 交换 这 些 资源 的 载体 〈 传 送信 
息 的 实际 文档 ) 。 

在 本 章 参 考 文献 [REST - SOAP] 中 也 有 说 明 ， 任 何 数量 的 连接 器 (例如 ， 客 户 
端 、 服 务 器 、 缓 存 、 管 道 ) 都 可 以 协调 请 求 ,， 但 是 每 个 连接 器 在 协调 时 都 无 法 “看 到 
过 去 ”自己 曾经 的 请 求 (这 种 情况 我 们 称 为 “分 层 ”， 它 是 REST 的 另 一 个 约束 机 制 ， 
也 是 其 他 很 多 信息 和 网 络 架构 部 分 通常 采用 的 做 法 ) 。 因 此 ， 应 用 程序 可 以 通过 了 解 两 
件 事情 做 到 与 资源 进行 交互 : 资源 的 标识 符 和 所 需 的 动作 一 一 它 不 需要 知道 是 否 存在 组 
存 、 代 理 、 网 关 、 防 火 墙 、 管 道 或 其 他 与 实际 持 有 信息 的 服务 器 之 间 的 任何 东西 。 然 
而 ， 该 应 用 程序 需要 了 解 返回 信息 (载体 ) 的 格式 (例如 ，HTML、XML 文档 ) 。 


5.2.3 SOAD 


分 析 和 设计 方法 对 于 良好 的 软件 开发 至 关 重 要 。 最 初 为 了 实现 更 好 的 软件 工程 ， 我 
们 有 软件 分 析 和 设计 方法 。 伴 随 着 像 Smalltalk, C+ + 和 Java 等 这 些 面向 对 象 软件 开发 
工具 的 爆炸 式 发 展 ， 出 现 了 一 些 面 向 对 象 的 分 析 和 设计 方法 ， 也 称 为 00AD。 经 过 大 量 
争论 之 后 ， 最 终 UML 成 为 00AD 的 统一 方法 。 现 今 面向 服务 的 计算 正在 迅猛 发 展 。 与 
面向 对 象 编程 不 同 ， 面 向 服务 的 编程 没有 自己 的 语言 。 我 们 目前 可 以 使 用 C、C + + 和 
Java 等 语言 进行 面向 服务 的 计算 。 然 而 ， 主 要 的 问题 是 我 们 如 何 对 这 些 服务 进行 建 模 和 
分 析 ? 是 否 有 统一 的 SOAD 方法 ? 目前 ， 已 经 有 人 提出 了 几 种 方法 ， 我 们 相信 ， 最 终 会 
有 统一 的 方法 。 
在 定义 软件 生命 周期 以 及 对 象 的 生命 周期 方面 ， 人 们 已 经 做 了 很 多 努力 。 例 如 ， 在 
软件 方面 ， 第 一 步 是 收集 需求 ， 然 后 确定 输入 /输出 ， 接 下 来 设计 算法 ， 然 后 开发 软件 ， 
测试 软件 ， 将 软件 集成 到 系统 中 ， 进 行 系统 测试 ， 以 及 最 后 部 署 软件 。 然 而 这 个 过 程 并 
没有 结束 ， 我 们 还 必须 维护 软件 ， 修 复 错误 ， 并 向 客户 提供 技术 支持 。 这 也 被 称 为 是 自 
上 而 下 的 软件 开发 方法 。 在 自 下 而 上 的 方法 中 ， 则 是 根据 需要 开发 软件 模块 。 类 似 的 ， 
对 于 对 象 软件 开发 ， 在 自 上 而 下 的 方法 中 ， 必 须 分 析 应 用 程序 ， 确 定 对 象 以 及 对 象 之 间 
的 关系 ， 开 发 对 象 ， 测 试 对 象 和 集成 对 象 。 系 统 也 必须 得 到 维护 。 在 自 下 而 上 的 方法 
中 ， 是 根据 需要 开发 对 象 。 
同样 ， 服 务 也 有 生命 周期 。Thomas Er (托马斯 . 伊 尔 ) 在 他 的 SOA 书籍 中 解释 了 
服务 生命 周期 ( 见 本 章 参考 文献 [ERI05] ) 。 他 提出 了 3 种 开展 服务 的 方式 : 一 是 自 
上 而 下 的 方法 ， 二 是 自 下 而 上 的 方法 ， 三 是 他 所 说 的 敏捷 方法 。 在 自 上 而 下 的 方法 中 ， 
首先 必须 进行 分 析 ， 然 后 设计 服务 、 开 发 服务 、 测 试 服务 、 整 合 服务 ， 最 后 维护 服务 。 
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在 自 下 而 上 的 方法 中 ， 服 务 根据 需求 进行 设计 和 开 
发 。 在 敏捷 方法 中 ， 采 用 综合 方法 。 也 就 是 说 ， 分 析 
应 用 程序 并 确定 服务 。 但 是 ， 不 必 等 待 所 有 服务 都 确 
定 下 来 才 去 开发 。 我 们 可 以 先 开发 一 些 关键 服务 ， 然 
后 进行 更 多 的 分 析 和 设计 ， 随 之 开发 一 些 其 他 服务 。 
该 过 程 会 持续 下 去 并 适应 于 应 用 程序 的 变化 。 图 5.8 
描述 了 服务 生命 周期 。 

通常 ， 我 们 会 在 SOA 类 中 讨论 面向 对 象 的 分 析 方 
法 和 UML。 虽 然 我 们 可 以 学 习 OOAD 中 内 在 的 一 些 设 
计 原 则 , 但 SOAD 与 OOAD 还 是 不 一 样 ， 毕 竟 SOAD 
是 用 于 设计 服务 的 。 需 要 注意 的 是 ， 对 象 可 能 用 于 实现 服务 。 但 是 ， 服 务 的 概念 与 对 象 
的 概念 是 不 一 样 的 。 因 此 ， 如 果 想 要 设计 出 良好 的 基于 服务 的 系统 ， 重 要 的 是 要 了 解 
SOAD 的 概念 。 

第 一 步 是 分 析 应 用 程序 并 确定 描述 应 用 程序 的 服务 。 首 先 ， 必 须 确 定 由 每 个 服务 封 
装 的 逻辑 、 逻 辑 的 复 用 以 及 该 服务 的 接口 。 另 外 ， 服 务 也 应 该 具有 自治 性 。 下 一 步 ， 需 
要 确定 的 是 包括 服务 组 合 在 内 的 服务 之 间 的 关系 。 在 自 上 而 下 的 方法 中 ， 必 须 确定 所 有 
服务 及 其 之 间 的 关系 ， 才 能 进行 服务 的 详细 设计 和 开发 。 对 于 大 型 应 用 设计 ， 这 或 许 是 
不 可 行 的 。 在 自 下 而 上 设计 方法 中 ， 可 以 确定 部 分 服务 再 开始 开发 。 在 敏捷 设计 中 ， 这 
两 种 策略 融 为 一 体 。 在 航空 预订 应 用 中 ， 这 些 服务 是 预订 航班 、 预 订 酒 店 和 预订 出 租 
车 。 它 们 可 以 作为 3 个 独立 的 服务 来 实现 ， 也 可 以 由 预订 航班 服务 来 调用 预订 酒店 和 预 
订 出 租车 服务 。 

Er 在 他 的 书 ( 见 本 章 参考 文献 [ERLO5]) 中 ， 为 商业 服务 提供 了 一 个 强 有 力 的 

案例 。 在 这 个 案例 中 ， 业 务 逻 辑 被 建 模 为 服务 。 他 进一步 指出 ， 这 种 方法 说 明基 于 业务 
流程 的 SOA 实现 的 各 个 阶段 。 这 种 业务 流程 在 根本 上 实现 了 使 不 同 的 应 用 程序 能 够 交 
互 的 工作 流程 逻辑 。 还 应 指出 的 是 ， 业 务 流程 本 身 可 以 被 实现 为 服务 。 因 此 ， 业 务 流 程 
服务 可 以 被 不 同 的 应 用 去 调用 ， 而 这 些 应 用 以 服务 的 形式 出 现 ， 可 以 彼此 进行 交互 操 
作 。 这 种 商业 服务 模式 也 能 促进 服务 的 再 利用 。 例 如 ， 应 付 账 款 服务 可 能 会 被 不 同 的 应 
用 程序 重复 使 用 。 
这 里 的 主要 问题 是 你 该 如 何 定 义 一 个 服务 ? 从 最 高 层面 上 看 ,完整 的 应 用 例如 订单 
管理 可 以 是 一 项 服务 。 然 而 ， 这 不 是 我 们 所 希望 的 。 在 男 一 极端 情况 下 ， 业 务 流程 可 以 
分 为 若干 个 步骤， 并 且 每 个 步骤 都 可 以 是 一 个 服务 。 以 订单 管理 为 例子 ， 这 些 步 又 包括 
在 网 上 书店 搜索 你 想 要 的 书籍 ，@ 比 较 这 本 书 在 各 个 不 同 书店 的 价格 ，@@ 审 查 运输 规 
则 和 退货 策略 ， 由 检查 书店 是 否 支 持 你 拥有 的 信用 卡 进 行 消费 ，@@ 选 择 一 个 书店 ，@ 搜 
索 这 本 书 ，G@O 将 书 放 在 购物 车 中 ，@ 填 写 全 部 细节 后 ， 购 买 该 书 ，@O 等 待 确认 ， 和 付款 
离开 。 现 在 每 个 步骤 都 可 以 是 一 个 服务 。 这 意味 着 一 个 中 型 应 用 程序 ， 可 能 有 数 百 种 服 
务 。 因 此 ， 我 们 需要 对 步骤 进行 成 组 ， 将 一 些 相关 任务 集成 在 一 个 服务 中 ， 以 减少 服务 
个 数 。 正 如 Erb 所 说 的 那样 ， 在 良好 的 服务 设计 中 ， 有 两 大 设计 原则 ( 见 本 章 参考 文献 
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图 5.8 面向 服务 的 生命 周期 
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[ERL05]): 一 个 是 可 重用 性 ， 另 一 个 是 自治 性 。 服 务 也 可 以 根据 要 执行 的 操作 来 定 
义 。 在 开始 阶段 我 们 不 能 明确 定义 的 服务 或 操作 ， 被 称 为 候选 服务 和 候选 操作 。 

接 下 来 ， 审 查 候选 服务 并 确定 它们 之 间 的 关系 。 一 个 服务 可 能 会 调用 其 他 服务 。 两 
个 服务 可 以 结合 成 一 个 复合 服务 。 这 意味 着 要 识别 两 个 服务 的 边界 和 接口 ， 尽 量 使 服务 
的 组 合 和 分 离 耦合 度 低 ( 尽 可 能 清晰 )。 如 果 服 务 互相 依赖 可 能 导致 服务 设计 变 得 复 
杂 。 服 务 操作 可 以 是 简单 的 操作 ， 例 如 进行 计算 ; 也 可 以 是 复杂 操作 ， 比 如 调用 多 个 
服务 。 

一 旦 候选 服务 和 服务 操作 得 到 确认 ， 下 一 步 就 是 对 服务 和 服务 操作 进行 设计 ， 并 提 
炼 新 的 候选 服务 。 需 要 注意 的 是 ， 这 也 取决 于 是 否 遵循 自 上 向 下 、 自 下 而 上 或 敏捷 策 
略 。 不 同 的 设计 策略 会 导致 不 同 的 情形 ， 或 者 所 有 服务 均 要 在 开发 之 前 被 定义 下 来 ， 或 
者 可 以 先 定 义 一 些 服务 ， 然 后 再 开始 开发 ， 而 其 他 服务 仍然 处 于 定义 之 中 。 本 章 参 考 文 
HR [ERLOS] 给 出 了 SOAD 的 各 种 方法 的 细节 ， 这 些 方法 与 服务 型 企业 和 企业 建 模 相 
关 。 我 们 将 在 下 一 节 进 一 步 研 究 相关 方法 。 

在 20 世纪 80 年 代 末 和 90 年 代 初 期 ， 几 种 面向 对 象 的 编辑 方法 处 于 相互 竞争 之 中 。 
这 些 方法 包括 Rumbaugh 的 OMT 以 及 Booch 和 Ivar Jacobson 的 用 例 法 。 之后， 在 UML 影 
响 下 ， 各 种 方法 实现 了 统一 ， 目 前 已 经 形成 了 一 个 00AD 标准 。 但 是 ,我 们 对 于 SOAD 
还 没有 一 些 标准 。 针 对 目前 存在 的 多 个 方法 ， 当 我 们 更 好 地 了 解 SOAD 方法 时 ， 我 们 期 
望 可 以 将 各 种 方法 统一 起 来 。 目 前 存在 的 一 些 方 法 中 包括 IBM 的 SOAD ， 它 被 称 为 SO- 
MA 和 UML 服务 。 我 们 在 本 节 论 述 的 这 些 方法 ， 图 5.9 进行 了 相关 说 明 。 在 本 章 参 考 文 
Bk [MODEL], [SURVEY] 和 [SOAD] 中 详细 论述 了 面向 服务 的 建 模 。 下 面 我 们 将 讨 
论 一 些 知 名 的 SOAD 方法 。 更 多 详细 信息 请 参见 本 章 参 考 文献 [THUR10]。 
















































































SOMA: 面向 服务 的 建 模 架构 
SOMF: 面向 服务 的 建 模 框架 
服务 型 UML 











图 $.9 SOAD 的 方法 


5.2.3.1 IBM SOAD 
IBM 公司 首先 提出 了 SOAD 这 一 术语 ， 然 后 用 SOMA 说 明 它 。 正 如 在 Ramollari 等 人 
的 调查 报告 中 关于 SOAD 方法 所 述 ，IBM 的 SOAD 所 提出 的 要 素 应 该 是 SOAD 方法 的 一 
部 分 。 因 此 ， 这 是 一 个 抽象 框架 而 不 是 一 个 完整 的 方法 〈 见 本 章 参考 文献 [IBM] ) 。 
SOAD 建立 在 现 有 的 成 熟 技术 之 上 ， 如 00AD。 另 外 ， 它 还 引入 了 SOA 特定 技术 ,例如 
服务 概念 化 、 服 务 分 类 和 聚合 。 
IBM SOMA; IBM 的 SOMA (面向 服务 的 建 模 架构 ) 可 以 被 认为 是 IBM 的 SOAD 的 
一 个 具体 实现 。 如 本 章 参 考 文献 [SOMA] 的 描述 ，SOMA 通过 服务 的 识别 ， 规 格 细 化 
和 实现 ， 以 及 实现 服务 组 件 和 用 于 构成 服务 流程 的 组 件 来 实施 SOAD, IBM 的 方法 扩展 
了 面向 对 象 的 基于 组 件 的 分 析 和 SOA 设计 方法 。 这 也 说 明 ，SOMA 通过 信息 补偿 技术 确 
认 服 务 、 组 件 边界 、 流 程 、 组 成 情况 、 信 息 ， 这 种 技术 包括 域 分 解 、 目 标 服 务 建 模 和 现 
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有 资产 分 析 。 
5.2.3.2 面向 服务 的 建 模 框架 

男 一 个 SOAD 方法 是 SOMF (面向 服务 的 建 模 框架 ) 。 如 本 章 参 考 文 献 [SOAD] 中 
所 述 ，SOMF 是 一 种 以 面向 服务 开发 的 生命 周期 方法 ， 并且 支持 许多 建 模 实 践 和 原型 ， 
有 助 于 成 功 地 进行 面向 服务 的 生命 周期 管理 和 建 模 。 建 模 有 四 个 部 分 实践 、 环 境 、 原 
型 和 工件 。 
5.2.3.3 服务 型 UML 

那些 已 经 使 用 过 UML 的 人 大 力 推广 在 SOAD 中 应 用 UML, IBM 的 UML 可 视 化 建 模 
软件 (Rational Rose) ， 其 中 有 一 部 分 就 是 UML 到 SOA 转换 的 工具 。 如 IBM [IBM] 所 
述 ，UML 到 SOA 的 转换 通常 接受 UML 模型 作为 其 源 ， 并 创建 特定 域 的 SOA 输出 。 

SOAD 的 大 部 分 工作 都 受到 OOAD 的 影响 ，00AD 也 包括 基于 UML WER, SOAD 
还 处 于 起 步 阶 段 。 因 此 ， 我 们 相信 就 像 UML 在 OOAD 领域 赢得 战斗 一 样 ， 在 SOAD 领 
域 也 很 可 能 会 有 一 个 统一 的 方法 。 关 于 UML 的 详细 信息 可 以 在 本 章 参 考 文献 [UML] 
中 找到 。 
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5.3.1 服务 范式 的 安全 


服务 的 安全 性 本 质 上 要 求 将 安全 性 纳入 到 服务 技术 中 。 例 如 ， 代 理 必 须根 据 哪些 证 
书 来 调用 Web 服务 ? Web 服务 必须 使 用 哪些 凭证 来 调用 另 一 个 Web 服务 ? 是 否 每 个 服 
务 描述 对 代理 都 可 见 ? 如 何在 Web 服务 描述 上 执行 访问 控制 ? 安全 性 如 何 纳入 SOA? 
什么 是 W3C 和 OASIS 提出 的 安全 标准 ?我 们 将 探索 这 些 问题 的 答案 。 有 关 安 全 服务 的 
更 多 详细 信息 ， 请 参阅 本 章 参考 文献 [BERT06] 。 最 近 ， 出 版 了 一 本 收录 有 关 WS 安全 
的 论文 集 ， 本 书 对 这 个 领域 的 新 兴 标 准 和 研究 方向 提供 了 一 个 很 好 的 概述 ( 见 本 章 参 
考 文献 [GUTI10] ) 。 

为 了 更 好 地 说 明 服 务 安全 的 概念 ， 我 们 将 使 用 信用 申请 的 示例 。 假 设 我 们 要 收 到 自 
己 的 信用 报告 。 我 们 会 联系 那个 可 以 提供 信用 报告 的 服务 提供 商 。 首 先 ， 我 们 应 该 有 机 
会 读 取 相 应 服务 提供 商 的 信息 。 一 旦 确认 这 个 服务 提供 商 ， 我们 将 向 服务 提供 商 发 出 请 
求 。 服 务 提 供 商 应 确保 我 们 有 权 访 问 相 应 的 特定 服务 ， 另 外 ， 我 们 有 时 需要 读 取 有 关 其 
检索 信用 的 信息 。 为 了 做 到 这 一 点 ， 我 们 还 必须 向 服务 提供 商 发 送 一 些 相 关 身 份 信息 。 
如 果 服 务 不 安全 ， 那 么 任何 人 都 可 以 获得 其 他 人 的 信用 报告 。 同 样 ， 为 了 获得 医疗 保健 
报告 ， 服 务 提 供 商 应 确保 请 求 服 务 的 人 员 具 有 阅读 医疗 保健 记录 的 相应 赁 证。 此 外 ， 医 
疗 保健 记录 的 拥有 者 可 以 执行 各 种 隐私 策略 ， 在 这 种 情况 下 ， 服 务 提供 商 应 仅 向 消费 者 
发 布 其 相应 的 其 他 信息 。 在 某 些 情况 下 ， 消 费 者 可 以 通过 服务 提供 商 来 购买 信息 。 男 
外 ， 服 务 提 供 商 通常 会 说 明 其 保护 隐私 的 策略 ， 如 果 消 费 者 同意 这 些 策略 ， 则 可 以 发 布 
关于 他 /她 的 私人 信息 。 
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这 个 简单 的 例子 说 明了 以 下 几 个 方面 。 一 是 该 服务 的 用 户 必须 由 服务 提供 商 证 实 。 
服务 提供 商 必 须 可 以 信任 ， 意 思 就 是 用 户 不 想 从 不 可 靠 的 提供 商 那 里 获得 服务 。 二 是 服 
务 提供 商 必 须 确 保 用 户 /消费 者 具有 真实 的 证 书 来 获取 服务 ， 并 且 发 布 的 任何 信息 都 是 
肖 费 者 有 权 阅 读 的 信息 。 三 是 服务 提供 商 还 必须 确保 关于 其 他 人 的 私人 信息 不 能 发 布 给 
消费 者 。 因 此 ， 从 根本 上 来 说 ， 我 们 需要 保证 WS 具有 机 密 性 、 隐 私 、 信 任 和 完整 性 
特征 。 

实现 SOA 的 关键 是 利用 WS。 因 此 ， 需 要 通过 安全 的 WS 来 实现 安全 的 SOA。 基 础 
的 SOA 本 质 上 描述 消费 者 从 UDDI 请 求 服 务 ，UDDI 发 送 服务 的 名 称 / 地 址 ， 然 后 ， 消 费 
者 从 服务 提供 商 获得 该 服务 。 使 用 安全 的 SOA， 我 们 必须 确保 消费 者 、UDDI 和 服务 提 
供 商 之 间 的 通信 是 安全 的 。 此 外 ， 只 有 被 授权 的 消费 者 才能 获得 所 需 的 服务 ， 并 且 以 
XML 编码 的 SOAP 消息 必须 是 安全 的 。XML 通过 加 密 标准 提供 机 密 性 ， 通 过 签名 标准 
提供 完整 性 。XML 的 加 密 和 签名 都 是 由 W3C 提供 标准 。 

WS 的 安全 和 授权 规范 基于 XML， 可 以 在 本 章 参 考 文献 [OASIS], [XACML] 和 
[SAML] 中 找到 相关 说 明 。 这 些 文献 提出 了 各 种 类 型 的 控制 ， 包 括 访问 控制 、 权 限 、 
声明 和 保护 ， 我 们 将 在 下 一 节 对 其 中 的 一 些 控制 进行 论述 。 相 关 规 范 清单 包括 以 下 
内 容 : 

B 可 扩展 访问 控制 标记 语言 (eXtensible Access Control Markup Language, XACML) 

B 可 扩展 权限 标记 语言 (eXtensible Rights Markup Language, XRML) 

E 安全 声明 标记 语 (Security Assertion Markup Language, SAML) 

E 服务 保护 标记 语言 (Service Protection Markup Language, SPML) 

Bl Web 服务 安全 (Web Services Security, WSS) 
生物 识别 格式 (XML Common Biometric Format, XCBF) 
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B XML 通用 

B XML 密 钥 管理 规范 (XML Key Management Specification, XKMS) 

OASIS 是 推动 WS 安全 标准 的 关键 标准 组 织 。 这 是 一 个 非 营 利 性 的 全 球 联盟 ， 它 推 
动 电子 商务 标准 的 发 展 、 融 合 和 采用 。0OASIS 提供 的 两 个 著名 标准 是 XACML 和 SAML, 
XACML 提供 对 授权 活动 的 细 粒 度 控 制 、 访 问 请 求 者 的 特征 作用 、 请 求 所 用 的 协议 、 基 
于 活动 类 的 授权 和 内 容 自 检 。SAML 是 用 于 交换 认证 和 授权 信息 的 XML 框架 。 至 于 WS 
安全 的 细节 ， 我 们 将 在 后 面 的 部 分 讨论 。 

我 们 是 第 一 个 根据 OMT 模型 检查 OOAD 的 安全 性 的 。 开 发 了 一 个 安全 的 对 象 模型 、 
安全 的 动态 模型 和 安全 的 功能 模型 。 从 那 以 后 ， 几 位 研究 人 员 相继 开 发 出 基于 对 象 的 
OOAD 安全 方法 。 通 过 这 个 SOAD 方法 ， 能 够 达到 确认 应 用 程序 中 的 服务 以 及 服务 之 间 
的 关系 的 目标 。 例 如 ， 图 书 订单 应 用 程序 的 服务 将 包括 订单 保存 服务 、 仓 库 服 务 和 送 货 
服务 。 这 些 服务 与 它们 的 各 种 安全 策略 相关 联 。 我 们 面临 的 挑战 是 如 何以 适当 的 建 模 语 
言 定 义 服 务 和 策略 。 

目前 ， 关 于 安全 的 面向 服务 的 设计 和 分 析 (Secure Service - Oriented Design and Ana- 
lyses, S- SOAD) 上 ， 几 乎 还 没有 工作 。 本 章 后 半 部 分 ， 我 们 将 根据 安全 的 OOAD 的 发 
展 情 况 进行 尝试 性 论述 。 也 就 是 说 ， 我 们 将 研究 SOAD 规则 ， 审 查 SOAD 的 安全 性 。 应 
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该 指出 的 是 随 着 WS 的 安全 性 以 及 SOAD 方法 的 成 熟 ， 我 们 将 看 到 更 好 的 S- SOAD 
方法 。 

身份 管理 (通常 也 称 为 联合 身份 管理 ) 与 WS 密切 相关 。 在 访问 资源 之 前 ， 用 户 以 
及 WS 必须 进行 身份 验证 。 单 点 登录 (Single Sign-On, SSO) 是 一 个 流行 的 解决 方案 ， 
一 次 性 登录 可 以 让 用 户 或 服务 访问 各 种 资源 。 此 外 ，SAML 目前 为 WS 提供 身份 验证 设 
施 。 然 而 ， 随 着 电子 商务 的 监管 要 求 的 变化 ， 我 们 需要 一 个 更 强大 的 认证 机 制 ， 这 种 机 
制 已 经 被 称 为 身份 管理 。 

如 本 章 参 考 文献 [FED] 中 所 述 ， 联 合身 份 “描述 了 技术 、 标 准 和 用 例 ， 以 便 在 
其 他 自主 安全 域 中 实现 身份 信息 的 可 移植 性 。” 使 用 它 的 目标 是 确保 一 个 域 的 用 户 以 无 
颖 的 方式 利用 另 一 个 域 的 所 有 技术 。 需 要 注意 的 是 ， 联 盟 是 关于 协作 执行 任务 (例如 
B2B 操作 ) 或 解决 特定 问题 的 组 织 。 虽然 建 立 联盟 的 想法 已 经 存在 了 许多 年 , 但 只 有 
最 近 随 着 WS 标准 的 出 现 才 使 得 我 们 能 够 形成 现实 的 联盟 。 在 这 样 的 联盟 中 ， 必 须 对 用 
户 访问 资源 进行 管理 ， 且 不 会 对 用 户 造成 负担 。 

服务 的 安全 标准 基本 上 由 W3C 和 Security SIS FFA, XIE, Web Services 1. 0 主要 
是 服务 消费 者 请 求 服务 提供 商 提 供 服 务 ， 然 后 服务 提供 商 提供 服务 。 在 SOAP 中 交换 的 
XML 消息 被 加 密 和 签名 ， 以 保证 机 密 性 和 完整 性 。 我 们 的 目的 是 加 密 消 息 以 提供 机 密 
性 并 签署 消息 以 确保 消息 不 被 算 改 。XML 密 钥 管理 和 XML 加 密 在 提供 信息 的 保密 性 和 
完整 性 方面 发 挥 了 重要 作用 。 

针对 Web Services 2.0 已 经 形成 了 几 个 附加 的 标准 ， 包 括 安全 消息 传输 、 可 靠 性 和 
身份 管理 。 另 外 ， 策 略 的 标准 管理 如 WS - Policy， 访 问 控制 标准 如 XACML， 以 及 诸如 
SAML 等 安全 声明 的 标准 也 已 经 形成 。 我 们 会 在 本 章 后 面 讨论 这 些 标准 。 

对 于 许多 应 用 程序 ， 只 有 访问 控制 模型 是 不 够 的 。 例 如 ， 在 复合 WS 的 情况 下 ， 一 
个 Web 服务 S1 可 以 调用 另 一 个 Web 服务 S2 。 在 这 样 的 调用 中 ，S1 的 特权 将 被 执行 ， 
但 这 不 是 那些 调用 S1 的 用 户 U 一 定 要 执行 的 。 这 意味 着 返回 给 U 的 信息 可 能 是 用 户 未 
被 授权 可 以 知道 的 内 容 。 为 了 避 





































































































































































































































































免 这 种 安全 湛 露 ,用户 U 必须 将 | 服务 客户 ; 服务 请 求 
其 权限 委派 给 S1 ， 以 便 的 权限 | Sb | — 9 — — 5|. as 
在 SI 调用 S2 时 使 用 。 这 种 调用 由 | ”| eo 






































所 使 用 的 授权 模型 ( 见 本 章 参 考 服务 应 答 
文献 [SHE08] ) 来 管理 。 

复合 WS 的 另 一 个 安全 问题 是 
信息 流 。 当 WS 被 组 合 时 ， 至 关 重 

要 的 是 不 存在 从 高 层 流 到 低层 的 

信息 流 。 我 们 重点 研究 关于 WS 安 

全 的 多 个 方面 ,包括 Web 服务 组 

合 的 授权 模型 和 信息 流 。 图 5. 10 

中 举例 说 明了 安全 的 面向 服务 计算 的 概念 。 
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图 5.10 安全 的 面向 服务 计算 例子 
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5.3.2 安全 的 SOA 和 WS 


我 们 的 方法 是 通过 WS 实现 SOA。 因 此 ，SOA 安全 本 质 上 是 关于 WS 的 安全 。 现 在 
已 经 有 为 Web Services 1. 0 提供 安全 性 的 规范 ， 它 们 是 WS - Security, XML - Signature 和 
XML - Encryption, WS - * Security 是 关于 SOA 安全 性 的 第 二 代 技 术 。SSO 是 一 种 安全 
机 制 的 集中 形式 ， 它 对 WS - Security 进行 了 扩展 。SOA 安全 性 的 相关 规范 包括 : WS - 
Security, WS — SecurityPolicy, WS — Trust, WS - SecureConversation ( WS 安全 对 话 )、 
WS - Federation 、XACML 、 可 扩展 权限 标记 语言 (Extensible Rights Markup Language) 、 
XML 密 钥 管理 、XML 、 签 名 、SAML . NET Passport 、 安 全 套 接 字 层 和 WS -I Basic Secu- 
rity Profile (WS - 工 基 本 安全 配置 文件 ) 。 图 5. 11 为 安全 WS 架构 的 概念 。 

接 下 来 ,我们 将 对 WS - Security 和 WS * - Security 进行 简要 介绍 。 关 于 SOA 安全 
的 具体 细节 ， 请 参考 本 章 参考 文献 [BERT06] [WSS]. 
















































REI UE 


请 求 服务 


服务 提供 商 
保证 信息 安全 的 
XML 加 密 和 签名 检查 用 户 属性 和 安全 策略 


图 $.11 安全 的 SOA 和 Web 服务 

















5.3.2.1 WS - Security 

在 介绍 WS- Security 的 细节 之 前 ， 我 们 将 讨论 WS 需要 的 一 些 安全 属性 。 它 们 包括 
以 下 内 容 : 

鉴别 : 对 于 服务 请 求 者 访问 安全 服务 提供 商 ， 首 先 必须 提供 说 明 其 来 源 或 拥有 者 的 
信息 ， 这 里 指 的 是 要 做 出 声明 。 

验证 : 传递 给 接收 者 的 消息 必须 经 证 明 该 消息 实际 上 来 自 其 声明 的 发 送 者 。 

授权 : 一 旦 认证 ， 消 息 的 接收 者 需要 决定 允许 请 求 者 做 什么 。 

单 点 登录 : 用 户 必须 单 点 登录 一 次 后 才能 访问 所 有 资源 。 它 由 SAML、. NET Pass- 
port 和 XACML 支持。 

机 密 性 和 完整 性 ， 机 蜜 性 是 关心 消息 内 容 的 隐私 保护 ; 完整 性 是 确保 消息 不 被 
改变 。 

传输 级 别 和 消息 级 别 的 安全 性 : SSL (安全 HTTP) 提供 传输 安全 性 ; XML 加 密 和 
XML 签名 提供 保证 消息 级 别 的 机 密 性 和 完整 性 。 

WS 安全 主要 是 指 提供 确保 消息 的 完整 性 和 机 密 性 的 设施 ， 并 确保 该 服务 仅 对 策略 
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表达 式 的 消息 请 求 服务 。 标 准 的 WS 安全 包括 提供 Web 服务 安全 框架 ， 这 也 是 Web IR 





务 架构 的 组 成 部 分 。 接 下 来 ， 我 们 将 简略 描述 WS - Security 的 各 个 组 件 。 


XML 加 密 : XML 加 密语 法 和 处 理 过 程 是 一 种 W3C 标准 ， 并 早 在 2002 年 推 

















其 目的 是 为 应 该 月 








程序 交换 结构 化 数据 时 提供 机 











资源 ， 将 加 密 信 息 从 加 密 数据 中 分 离 出 来 ， 并 文 


制 (反之 亦 然 )， 











提供 用 于 将 加 密 密 钥 信 息 传递 


或 全 部 加 密 的 机 制 等 措施 来 实现 。 





XML 签名 : 这 也 是 W3C 标准 ， 








并 在 2002 年 推 














广 使 用 。 














密 性 。 主 要 通过 表示 成 标准 的 数字 加 密 
持 从 加 密 数 据 中 处 理 加 密 信 息 的 参考 机 
给 接收 者 并 提供 对 XML 文档 的 一 部 分 




















出 。XML 签名 是 许多 WS 安全 标准 





(例如 XKMS 和 WS - Security ) 的 组 成 部 分 。 其 目标 是 将 数字 签名 表示 为 XML 元 素 和 用 


于 创建 此 XML 元 素 的 方法 规则 。 








XML 元 素 、 也 包括 任何 类 型 的 数字 数据 的 文件 ) 。 


保证 SOAP 消 , 





(标题 和 主体 ) 相 


SIM 卡 的 移动 设备 安全 令 牌 、 用 户 名 等 ) 。 
含 一 组 由 发 行人 加 密 认 证 的 相关 声明 (断言 ) (示例 : 9. 509 证 


密 性 和 单 消息 认证 等 增强 了 SOAP 消息 传递 ， 








(9. 509 证 书 和 Kerberos 票证 ) 。 

















关联 的 机 制 和 支持 可 扩展 性 ( 






































即 ， 支 持 多 个 安全 令 牌 格式 ) 。 
牌 是 与 安全 相关 的 一 种 信息 表示 (例如 ，9.509 证 书 、Kerberos 票证 和 认证 者 ， 来自 







































































5.3.2.2 WS- * Security 


























签名 的 数据 项 可 以 是 不 同 的 类 型 和 粒度 (XML 文档、 


息 安 全 对 于 WS - Security 至 关 重 要 。SOAP 消息 安全 性 1.0 版 本 于 
2006 年 成 为 被 批准 的 OASIS 标准 规范 。 其 目标 是 通过 使 用 
全 令 牌 机 制 来 提供 单一 的 SOAP 消息 完整 性 和 保密 性 ， 并 提供 将 安全 令 牌 与 消 


现 有 的 数字 签名 、 加 密 和 安 
BS 


BES 


BFN Kerberos 票证 ) o 


署名 的 安全 令 牌 也 是 一 种 安全 令 牌 ， 其 中 包 

















现在 我 们 回 到 WS - Security E; WS - Security 是 什么 ? 它 通 过 消息 完整 性 ， 消 息 保 
从 而 提供 了 质量 保护 。 这 些 机 制 也 可 用 于 
容纳 各 种 安全 模型 和 加 密 技术 。WS - Security 还 提供 了 一 种 通用 的 可 扩展 机 制 ， 用 于 将 
全 令 牌 与 消息 相关 联 。 此 外 ，WS - Security 还 描述 了 如 何 编码 二 进 制 安全 令 牌 
图 5.12 说 明了 WS - Security 的 构成 。 
WS - Security : 
签署 SOAP 消 息 ， 加 密 SOAP 消 息 和 附加 的 安全 令 牌 机 制 
SOAP 基 础 
XML 安全 性 : XML 签名 ，XML 加 密 
传输 级 安全 性 : SSL/TLS 
网 络 级 安全 性 : IPSec 
图 5.12 WS-Security 
WS - * Security 标准 规范 解决 了 互 操 作 性 方面 的 安全 问题 。 要 说 明 的 是 ， 每 个 标准 
规范 也 都 有 一 部 分 描述 专门 说 明 自 身 没有 解决 的 安全 威胁 。WS - * Security 框架 使 用 
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WS -Security。 该 框架 已 经 在 Microsoft . NET Framework 2. 0 ( WSE3. 0) , SUN Web 服务 


互 操作 技术 (Web Services Interoperability 
件 〈 见 本 章 参考 文献 [APAC]) 中 实施 。 
每 个 上 层 标 准 可 以 复 用 和 扩展 下 层 标准 的 
兼容 的 。 但 是 ， 他 们 坚持 使 用 配置 文件 ， 






































Technologg，WSIT) , IBM WebSphere 和 开源 软 
在 理论 上 ， 框 架 要 求 使 用 分 层 的 方法 ， 其 中 
规范 。 实 际 上 ， 不 同 组 织 发 布 的 规范 并 不 总 是 
提高 互 操作 性 。 应 该 注意 的 是 ， 不 同 提供 商 的 


















































实现 并 不 总 是 可 互 操 作 的 。WS - * Security 中 ， 提 供 安 全 性 的 3 个 主要 组 件 是 WS- 
Policy, WS - Trust 和 WS - Addressing, WS - Addressing 是 传输 中 立 机 制 的 规范 ， 人 允许 








Web 服务 传送 地 址 信息 。 下 














议 所 处 的 状态 可 能 随时 间 而 变化 。 


面 我 们 将 讨论 WS - Policy 和 WS - Trust, 
WS - * Security 的 构成 情况 。 注 意 ， 这 个 堆栈 结构 实际 是 不 断 发 展 变化 


准 已 经 被 采纳 ， 而 其 他 标准 正在 实验 阶段 ， 





图 5.13 说 明了 
Hj. 其 中 一 些 标 
还 有 一 些 只 在 规范 阶段 。 因 此 ， 一 个 特定 协 
















































































安全 管理 身份 管理 
| XKMS || WS-Trust | WS —Federation| | 自由 SAML | 
消息 安全 可 靠 消息 发 送 策略 和 访问 控制 
WS-Security WS 安 全 对 话 WS 可 靠 消 息 发 送 [WS -Policy] 
SANE 


SOAP 基 础 
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传输 安全 级 别 
网 络 安全 级 别 
图 5.13 WS- * Security 
WS -Policy; Web 服务 策略 1.2 框架 (WS - Policy) 是 一 种 W3C 提交 的 标准 。 一 
个 策略 是 潜在 的 关于 待 选 策略 的 空 集 。 待 选 策略 是 没有 顺序 的 。 待 选 策略 是 潜在 的 关于 
策略 声明 空 集 。 没 有 声明 的 待 选 策略 表示 没有 行为 发 出 者 。 待 选 策略 也 是 相互 排斥 的 





(也 就 是 异 或 关系 ) 。 策 
如 ， 安 全 性 ， 事 务 ) 的 语义 ， 并 




















各 声明 能 识别 策略 主体 的 要 求 〈 或 能 力 ) ， 可 以 表示 特定 域 ( 例 
且 应 该 在 独立 、 特 定 域 规范 中 被 定义 。 
WS - Policy 被 认为 是 一 个 可 扩展 的 模型 ， 


r ob 


E, H6 








够 表示 所 有 类 型 的 特定 域 策略 模型 . 


传输 级 安全 性 ， 资 源 使 用 策略 ， 黄 至 是 端 到 端的 业务 流程 级 别 策略 。 它 定义 了 一 个 基本 





的 策略 、 策 略 描述 和 策略 声明 模型 。WS - 


Policy 还 可 以 并 入 其 他 策略 模型 ， 如 SAML 和 
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XACML, WS - Policy Assertion 定义 了 一 些 通用 的 策略 声明 。WS - Policy 附件 定义 了 策 
略 如 何 与 服务 相关 联 ， 或 者 将 策略 直接 舱 入 WSDL 定义 中 ,或 间接 通过 UDDI 关联 策 
Wt. WS —SecurityPolicy 定义 了 与 WS - Security 定义 的 安全 说 明 相 对 应 的 安全 策略 声明 : 
消息 完整 性 声明 ， 消 息 认 证 声明 和 消息 安全 性 令 牌 声明 。 

WS -Policy 和 WS - PolicyAttachment 的 目 标 是 为 了 提供 一 些 机 制 ， 来 表达 WS 作为 
策略 的 能 力 和 要 求 。WS - Policy 的 策略 观点 如 下 : 一 种 策略 用 于 表达 两 个 Web 服务 端 
点 之 间 交 互 的 条 件 。 也 就 是 ，Web 服务 提供 商 公 开 一 个 策略 表达 它 提供 服务 的 条 件 。 
请 求 者 可 能 会 使 用 这 个 策略 去 决定 是 否 使 用 该 服务 。 

WS- Trust; 如 本 章 参考 文献 [TRUST] 所 述 ，WS - Trust 是 一 个 WS - * Specifica- 
tion 和 OASIS 提供 WS - Security 扩展 的 标准 。 它 涉及 发 布 、 更 新 和 验证 安全 令 牌 。 同 
时 ， 它 也 作为 经 纪 人 通过 安全 对 话 ， 协 调 参与 者 之 间 利 用 安全 的 信息 交换 维持 信任 关 
系 。 安 全 性 (机 密 性 和 完整 性 ) 往往 通过 加 密 、 数 字 签 名 和 证 书 来 实现 。 归 根 结 底 ， 
安全 性 要 依赖 加 密 密 钥 和 安全 令 牌 的 安全 管理 ， 包 括 : 密 钥 / 安 全 令 牌 发 布 、 密 钥 / 安 全 
令 牌 传输 、 密 钥 / 安 全 令 牌 存储 以 及 密 钥 /安全 令 牌 交换 。Web 服务 信任 语言 (Web 
Services Trust Language， 简称 WS - Trust) 于 2005 年 发 布 ， 其 目标 是 在 不 同 的 信任 域 之 
间 发 布 和 传递 证 书 。WS - Trust 对 WS - Security 进行 了 扩展 ， 提 供用 于 发 布 、 更 新 和 验 
证 安全 令 牌 以 及 建立 安全 令 牌 的 方法 ,评估 信任 关系 的 存在 和 协调 信任 关系 的 方法 。 对 
WS - Security 保护 的 SOAP 消息 的 接收 者 来 说 ， 有 3 个 潜在 的 包含 在 安全 令 牌 头 部 的 问 
题 要 解决 。 一 是 格式 : 令 牌 的 格式 或 语法 对 于 接收 者 来 说 是 未 知 的 ; 二 是 信任 : 接收 方 
可 能 无 法 建立 信任 链 ， 这 种 信任 链 是 从 其 自己 的 信任 锚 [例如 ， 其 Xx. 509 证 书 管理 机 
构 ， 本 地 Kerberos KDC 〈 密 钥 分 发 中 心 )] 或 SAML 管理 中 心 到 发 行商 或 令 牌 签名 者 ; 
三 是 命名 空间 : 由 于 语法 差异 ， 接 收 者 可 能 无 法 直接 理解 令 牌 内 的 一 些 声 明 。 

消息 可 靠 性 由 WS - ReliableMessaging 标准 提出 。 而 消息 安全 性 由 WS - Security 和 
SecureConversation 标准 提出 。 如 本 章 参 考 文献 [CONV] PTR, WS - SecureConversation 
是 由 IBM 等 创建 的 Web 服务 规范 ， 与 WS - Security, WS - Trust 和 WS - Policy 协同 工 
作 ， 人 允许 创建 和 共享 安全 上 和 下文。 实际 上 ，WS - SecureConversation 的 目标 是 为 多 个 
SOAP 消息 交换 建立 安全 上 下 文 ， 而 这 反 过 来 减少 了 密 钥 建立 的 开销 。 对 话 则 主要 集中 
在 Web 服务 参与 者 参与 的 公共 过 程 。WSCL (Web Services Conversation Language) 是 
Web 服务 对 话语 言 。 更 准确 地 说 ，WS - Conversation 提供 了 跨越 一 个 或 多 个 消息 的 安全 
通信 ， 并 扩展 了 WS - Security 机 制 。 为 了 增加 安全 性 ， 对 消息 对 话 需 要 施加 一 系列 派生 
密 钥 产生 安全 上 下 文 ， 在 安全 上 下 文 的 两 个 端点 间 再 建立 和 共享 一 系列 SOAP 消息 (会 
话 ) ， 这 些 步 又 也 减 慢 了 认证 过 程 。 安 全 上 下 文 被 定义 为 一 个 新 令 牌 类 型 ， 它 通过 绑 定 
WS - Trust 来 获取 。 它 也 是 一 种 抽象 概念 ， 指 的 是 已 经 建立 的 认证 状态 和 可 能 具有 其 他 
相关 安全 性 属性 的 协商 密 钥 。 安 全 上 下 文 令 牌 (Security Context Token, SCT) 是 该 安全 
上 下 文 抽象 概念 的 表示 ， 它 允许 上 下 文 由 TURI 命名 并 与 WS- Security 一 起 使 用 。 

策略 和 访问 控制 由 WS - Policy, XACML 和 SAML 提出 。SAML 由 OASIS 的 基于 
XML 安全 服务 技术 委员 会 (Security Services Technical Committee, SSTC) 开发 ， 其 主要 
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目标 是 提供 认证 和 授权 ， 能 够 促进 不 同 身 份 验证 和 授权 系统 之 间 的 互 操作 性 。 它 通过 定 
义 基 于 XML 的 框架 来 实现 这 一 点 ， 以 便 在 使 用 不 同安 全 基础 设施 ， 例 如 ，Public Key 
Infrastructure (PKI), Kerberos, LDAP 等 的 计算 实体 之 间 传 达 安 全 性 和 身份 信息 ( 例 
如 ， 身 份 验证 、 授 权 和 属性 ) 。XACML 2. 0 版 也 是 OASIS 标准 ， 它 是 一 种 用 于 管理 资源 
访问 的 通用 访问 控制 策略 语言 ， 描 述 了 策略 语言 和 访问 控制 决策 请 求 / 响 应 语言 。 另 外 ， 
它 还 提供 基于 主体 和 客体 属性 的 细 粒 度 访 问 控制 。XACML 2.0 基于 SAML 建立 ， 并 与 
其 一 致 。 

安全 管理 基本 上 由 SAML 和 XKMS 完成 。 如 W3C 所 述 ，XML 密 钥 管理 规范 (XML 
Key Management Specifcation, XKMS) 包括 两 个 部 分 : XML 密 钥 信息 服务 规范 (XML 
Key Information Service Specifcation, XKISS) 和 XML 密 钥 注册 服务 规范 (XML Key Regis- 
tration Service Specifcation, XKRSS) 。 在 W3C 规范 中 ，XKISS 人 允许 客户 端 将 处 理 XML 签 
名 元 素 所 需 的 部 分 或 全 部 任务 委托 给 XKMS 服务 。 本 质 上 ，XKISS 通过 成 为 XKMS 服务 
的 客户 端 ， 最 大 限度 地 减少 使 用 XML 签名 的 应 用 程序 的 复杂 性 。 通 过 这 种 方式 ，W3C 
说 明了 该 应 用 程序 可 以 减少 基于 PKI 建立 信任 关系 的 复杂 性 和 过 多 语法 。W3C 也 说 明 
了 ，XKRSS 描述 的 是 一 种 用 于 公 钥 信息 注册 和 后 续 管理 的 协议 。 我 们 最 后 要 讨论 的 组 
件 是 身份 管理 ， 它 的 标准 提供 者 是 SAML、WS - Federation 和 自由 联盟 。 

如 本 章 参 考 文献 [FED] 所 述 ，WS - Federation 是 由 BEA Systems (现在 的 Oracle) , 
IBM, Microsoft 和 其 他 公司 开发 的 身份 联合 规范 。 这 个 规范 定义 了 一 种 机 制 ， 允 许 不 同 
安全 实体 协调 关于 身份 、 身 份 属性 和 验证 等 信息 。 这 个 自由 联盟 成 立 于 2001 年 9 H, 
由 大 约 30 个 组 织 组 成 ， 目 的 是 建立 身份 管理 的 开放 标准 、 准 则 ， 并 提供 最 佳 范例 。 


5.3.3 安全 的 SOAD 


随 着 服务 技术 的 大 量 出 现 ， 我 们 需要 一 种 基于 服务 并 有 效 地 为 应 用 程序 建 模 的 方 
法 。 为 此 我 们 开发 了 SOAD 方法 ， 而 IBM 则 是 该 领域 的 领导 者 之 一 。 在 本 章 参 考 文献 
[THUR10] 中 ， 我 们 讨论 了 面向 服务 的 生命 周期 以 及 包括 SOMA 和 SOMF 在 内 的 SOAD 
的 方法 。 虽 然 SOAD 适用 于 服务 建 模 ， 但 为 了 建立 安全 的 服务 模型 ， 我 们 需要 安全 的 
SOAD, 在 本 节 中 ， 我 们 将 讨论 开发 安全 的 SOAD 的 一 些 初步 想法 。 

安全 的 服务 建 模 从 OOAD 中 获 益 良 多 。00AD 方法 在 20 世纪 80 年 代 和 90 年 代 被 
开发 ， 并 从 实体 关系 建 模 演变 而 来 。 这 些 方法 包括 Rumbaugh 的 OMT 和 Booch 的 类 图 。 
我 们 在 本 章 参 考 文 献 [SELL93] 中 将 安全 性 纳入 OMT。 例 如 ， 我 们 开发 了 一 种 从 动态 
和 功能 两 个 角度 对 对 象 之 间 的 关系 进行 建 模 的 方法 ， 还 应 用 这 个 方法 到 医疗 应 用 以 及 实 
时 应 用 领域 ( 见 本 章 参 考 文献 [THUR94a] 、[THUR94b] ) 。 

正如 我 们 在 本 章 参 考 文 献 [THUR10] 中 提 到 的 ， 各 种 OOAD 方法 在 20 世纪 90 年 
代 中 期 是 统一 的 。 随 后 ， 开 发 了 UML。 它 被 一 些 研究 人 员 应 用 到 了 安全 应 用 程序 中 ， 其 
中 包括 Indrakshi Ray ( 见 本 章 参 考 文献 [RAY04] ) 的 工作 。 随 着 UML 的 发 展 ， 它 也 被 
应 用 于 面向 切面 的 建 模 和 分 析 。 然 而 ， 随 着 服务 技术 的 出 现 ，UML 正在 应 用 于 服务 建 
模 中 ， 我 们 期 望 这 种 方法 将 被 应 用 于 安全 的 服务 。 但 是 ， 我 们 必须 注意 ， 不 要 将 服务 人 

69 







































































































































































































































































































































































©) 去 计算 开发 与 安全 








为 地 建 模 为 对 象 。 因 此 ， 我 们 需要 一 种 自 下 而 上 的 方法 对 服务 和 安全 的 服务 进行 建 模 。 

安全 性 已 被 纳入 到 软件 工程 的 生命 周期 中 ， 近 期 则 是 被 应 用 到 面向 对 象 的 生命 周期 
中 。 例 如 ， 安 全 工程 涉及 定义 安全 策略 ， 将 安全 性 纳入 系统 设计 、 安 全 测试 和 维护 。 在 
面向 对 象 的 系统 生命 周期 的 情况 下 ， 安 全 性 考虑 将 包括 定义 对 象 和 活动 的 安全 策略 ， 以 
及 将 安全 性 纳入 对 象 系统 的 设计 、 安 全 测试 和 维护 。 同 样 ， 在 安全 的 面向 服务 的 生命 周 
期 的 情况 下 ， 我 们 需要 确定 安全 策略 、 服 务 的 安全 级 别 以 及 服务 之 间 的 相互 作用 ， 包 括 
服务 的 组 成 ， 以 及 将 安全 性 纳入 服务 的 设计 和 开发 ， 之 后 测试 安全 服务 。 

正如 我 们 已 经 讨论 过 的 〈 见 本 章 参 考 文献 [THUR10] ) ， 托 马 斯 . 伊 尔 在 他 的 书 中 
关于 SOA 的 部 分 ， 解 释 了 服务 的 生命 周期 。 他 提出 了 3 种 发 展 服务 的 方式 : 一 是 自 上 
而 下 的 方法 ， 二 是 自 下 而 上 的 方法 ， 三 是 他 所 谓 的 敏捷 方法 。 在 设计 服务 时 ， 我 们 不 应 
该 在 事后 考虑 安全 性 。 我 们 必须 考虑 到 自 上 而 下 、 自 下 而 上 和 敏捷 方法 的 安全 性 。 在 自 
上 而 下 的 方法 中 ， 必 须 进 行 分 析 ， 然 后 设计 服务 ， 开 发 服务 ， 测 试 服务 ， 集 成 服务 ， 最 
后 维护 服务 。 在 这 个 方法 中 ， 安 全 策略 必须 贯穿 整个 过 程 。 例 如 ， 当 组 合 两 个 服务 时 ， 
组 合 服务 对 应 的 策略 是 什么 ? 在 自 下 而 上 的 方法 中 ， 服 务 根据 需要 进行 设计 和 开发 。 因 
此 ， 在 设计 服务 时 ， 必 须 考虑 安全 性 。 正 如 当 设 计 新 服务 时 ， 不 能 违反 为 更 优先 服务 指 
定 的 安全 策略 。 而 在 敏捷 方法 中 ， 采 用 综合 方法 。 也 就 是 说 ， 分 析 应 用 程序 和 确定 服务 
同步 进行 ， 不必 等 待 所 有 的 服务 被 确定 。 对 这 种 敏捷 方法 的 安全 性 影响 尚 待 研究 。 

考虑 安全 性 时 ， 需 要 注意 男 一 个 方面 ， 即 动态 策略 。 也 就 是 ， 在 服务 和 服务 组 合 上 
执行 的 安全 策略 可 能 随时 间 而 变化 。 确 保 在 适应 不 断 变 化 的 策略 和 安全 级 别 时 不 会 出 现 
安全 隐患 是 一 项 挑战 。 同 时 也 是 设计 安全 的 面向 服务 系统 的 主要 挑战 。 

下 面 ， 我 们 将 讨论 我 们 在 5.2 节 中 介绍 的 SOAD 方法 ， 并 检查 其 安全 性 。 第 一 步 是 
分 析 应 用 程序 并 确定 描述 应 用 程序 的 服务 ， 必 须 确 定 由 每 个 服务 封装 的 逻辑 、 逮 辑 的 重 
用 以 及 到 该 服务 的 接口 。 从 安全 角度 来 看 ， 在 定义 服务 时 ， 我 们 必须 考虑 相应 的 一 些 安 
全 策略 。 可 能 包括 ， 该 服务 的 安全 级 别 是 什么 ?在 服务 上 执行 的 策略 是 什么 ?” 谁 可 以 访 
问 该 服务 ”我 们 什么 时 候 将 服务 分 解 成 较 小 的 服务 ， 以 防 安全 性 不 被 侵犯 ? 例如 ， 服 务 
A 可 能 不 能 访问 服务 B。 但 是 ， 服 务 B 可 以 被 分 解 成 服务 C 和 D， 其 中 A 可 以 访问 C 而 
不 能 访问 D。 现 在 ， 如 果 A 具有 对 C 和 D 的 访问 ， 则 可 能 会 违反 A 不 能 访问 B 的 策略 。 

下 一 步 是 服务 之 间 的 关系 ， 其 包括 将 要 确定 服务 的 组 成 。 在 自 上 而 下 的 策略 中 ， 必 
须 在 进行 服务 的 详细 设计 和 开发 之 前 确定 所 有 服务 和 关系 。 对 于 大 型 应 用 设计 ， 这 可 能 
是 不 可 行 的 。 在 自 下 而 上 设计 的 策略 中 ， 必 须 确定 服务 才 开 始 开 发 。 在 敏捷 设计 的 策略 
中 ， 将 这 两 种 策略 融 为 一 体 。 从 安全 的 角度 来 看 ， 可 能 存在 着 定义 服务 之 间 关 系 的 策 
略 。 我 们 先前 提供 的 关于 服务 A. B. CAD 的 示例 显示 ,虽然 A 可 以 访问 C， 但 如 果 
我 们 要 执行 A 无 法 访问 B 的 策略 ， 则 A 可 能 无 法 访问 D。 这 种 访问 意味 着 调用 特定 
服务 。 

在 本 章 参 考 文献 [THURIO] 中 ， 我 们 论述 了 业务 逻辑 可 以 被 建 模 为 服务 。 并 且 ， 
这 种 方法 为 基于 业务 流程 的 SOA 奠定 了 基础 。 业 务 流程 基本 上 实现 了 工作 流 逻 辑 ， 使 
不 同 的 应 用 程序 能 够 相互 交互 。 此 外 ， 我 们 已 经 讨论 过 ， 业 务 流程 本 身 也 可 能 被 实现 为 
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服务 。 因 此 ， 可 以 针对 不 同 的 应 用 程序 调用 业务 流程 服务 ， 也 可 以 实现 为 相互 交互 的 服 
务 。 同 时 ， 业 务 服务 也 促进 了 再 利用 。 从 安全 的 角度 来 看 ， 我 们 还 要 确定 谁 可 以 调用 业 
务 逻 辑 和 业务 流程 服务 。 我 们 已 经 为 工作 流 系 统 的 安全 性 做 了 许多 工作 ， 其 中 包括 BFA 
( Bertino - Ferrari — Atluri ) 模型 ( 见 本 章 参 考 文献 [ BERT99 ] Jis 在 这 项 工作 中 " 我 们 
需要 审查 关于 业务 逻辑 和 业务 流程 服务 的 原则 。 当 服务 被 重复 使 用 时 ， 如 果 因 此 而 产生 
互相 冲突 策略 ， 将 会 发 生 什么 ?此 外 ,我们 还 必须 确保 通过 重用 不 会 出 现 安全 违规 。 

接 下 来 ， 我们 将 考虑 ( 见 本 章 参 考 文献 [ THURIO]) 中 讨论 的 服务 建 模 的 关键 点 ， 
并 检查 其 安全 性 影响 。 其 主要 的 问题 是 如 何 定义 一 个 服务 ? 在 最 高 级 别 ， 诸 如 订单 管理 
的 整个 应 用 程序 可 以 是 一 项 服务 。 但 是 ， 这 是 不 可 取 的 。 在 另 一 个 极端 情况 ， 业 务 流程 
可 以 分 为 几 个 步 又， 每 个 步骤 都 可 以 是 一 个 服务 。 将 执行 一 些 特定 任务 的 步骤 分 组 到 服 
务 中 是 一 项 挑战 。 然 而 ， 当 考虑 到 安全 性 时 ， 我 们 不 仅 必 须 将 执行 某 些 特定 任务 的 步 又 
分 组 到 服务 中 ， 而 且 还 必须 确保 这 些 分 组 能 够 有 意义 地 执行 。 如 果 安 全 性 是 基于 多 层次 
的 ， 那 么 我 们 可 能 需要 为 每 个 服务 分 配 一 个 安全 级 别 。 以 这 种 方式 ， 服 务 可 以 由 被 准许 
的 人 在 合适 级 别 中 执行 。 因 此 ， 将 步骤 分 组 是 一 项 挑战 ， 从 任务 角度 和 安全 角度 来 看 都 
是 非常 有 意义 的 。 

随后 ， 我 们 必须 检查 候选 服务 并 确定 它们 之 间 的 关系 。 一 个 服务 可 能 会 调用 其 他 服 
务 ， 也 可 能 组 合 两 个 服务 来 创建 一 个 复合 的 服务 。 这 意味 着 要 确定 边界 和 接口 ， 并 使 组 
成 和 分 离 尽 可 能 清晰 。 相 互 的 依赖 性 可 能 导致 更 复杂 的 服务 设计 。 服 务 操作 可 以 是 诸如 
执行 计算 的 简单 操作 或 诸如 调用 多 个 服务 的 复杂 操作 。 再 者 ， 安 全 性 可 能 会 影响 服务 之 
间 的 关系 。 如 果 两 个 服务 之 间 有 一 些 关系 ， 那 么 这 两 个 服务 都 应 该 允许 被 在 特定 级 别 上 
的 一 组 用 户 或 多 组 用 户 使 用 。 例 如 ， 如 果 服 务 A 和 B 紧密 集成 ， 服 务 C 不 可 能 只 可 以 
访问 A 而 不 可 以 访问 B。 如 果 A 关于 进行 酒店 预订 ，B 是 关于 出 租车 预约 ， 则 航空 公司 
预订 服务 C 应 能 够 调用 A 和 了 两 种 服务 。 

一 旦 候选 服务 和 服务 操作 被 确定 ， 下 一 步 就 是 定义 候选 服务 并 描述 服务 的 设计 和 服 
务 操作 。 因 此 ， 从 安全 的 角度 来 看 ， 我 们 必须 定义 不 仅 有 意义 而 且 安全 的 服务 和 服务 操 
作 。 而 且 ， 必 须根 据 策略 ， 执 行 候 选 服务 到 实际 服务 的 映射 。 图 5. 14 为 安全 的 SOAD 
的 基本 流程 。 
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图 5.14 安全 的 SOAD 

正如 我 们 在 5. 2 节 所 论述 的 ，SOAD 方法 有 许多 种 。 接 下 来 ， 我 们 将 研究 各 种 方法 

的 安全 性 影响 。 如 同 神话 般 的 UML， 我 们 相信 能 在 统一 的 SOAD 方法 上 取得 进步 。 到 那 
时 ， 我 们 对 这 种 方法 的 安全 性 会 有 一 个 更 好 的 了 解 。 

5.3.3.1 安全 的 SOMA 

如 本 章 参 考 文献 [SOMA] 所 述 ，SOMA 要 实现 SOAD, ， 需 要 通过 身份 识别 、 设 计 
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规范 和 实现 服务 ， 实 现 可 用 于 组 合 服务 的 服务 组 件 和 流程 组 件 。 要 使 用 安全 的 SOMA, 
我 们 需要 确定 在 服务 和 各 种 组 件 上 执行 的 策略 。 对 于 多 层次 的 安全 WS， 还 需要 分 配 服 
务 的 安全 级 别 。 此 外 ， 服 务 的 执行 级 别 也 应 该 被 定义 。 
5.3.3.2 安全 的 SOMF 

如 本 章 参 考 文献 [THUR10] 中 所 述 ，SOMF 是 面向 服务 开发 生命 周期 的 方法 ， 并 
且 支 持 许 多 建 模 实 践 和 规则 ， 有 助 于 实现 成 功 的 面向 服务 的 生命 周期 管理 和 建 模 。 对 此 
框架 的 安全 性 影响 需要 进一步 检查 。 
5.3.3.3 用 于 服务 的 安全 UML 
用 于 服务 的 安全 UML 基本 上 形成 了 用 于 面向 服务 的 分 析 和 建 模 的 安全 UML。 在 安 
全 应 用 中 ， 应 用 UML 和 其 他 OOAD 方法 上 已 经 做 出 的 一 些 努力 。 我 们 需要 进一步 拓展 
这 些 方法 来 保护 SOAD 。 还 需要 检查 更 多 方面 的 安全 性 影响 ， 例 如 面向 服务 的 发 现 和 分 
析 建 模 、 面 向 服务 的 业务 集成 建 模 、 面 向 服务 的 逻辑 设计 建 模 、 面 向 服务 的 概念 架构 建 
模 和 面向 服务 的 逻辑 架构 建 模 等 。 


5.3.4 WS 访问 控制 


我 们 在 WS 上 的 大 部 分 工作 都 是 基于 访问 控制 。 访 问 控制 策略 指 要 访问 对 象 的 主体 
必须 满足 的 规则 。 我 们 已 经 为 信息 系统 开发 了 几 种 访问 控制 策略 ， 包 括 自主 访问 控制 策 
略 、 强 制 访 问 控制 策略 ， 以 及 最 近 的 基于 角色 的 访问 控制 策略 和 使 用 控制 策略 。 基 于 属 
性 的 访问 控制 (Attribute - Based Access Control, ABAC) 正在 被 许多 应 用 领域 (包括 国 
防 部 ) 所 采用 。 作 为 一 个 模型 ， 它 是 一 种 更 适合 诸如 Web 环境 的 开放 型 系统 。 此 外 ， 
由 OASIS 等 标准 组 织 开 发 的 一 些 模型 ， 也 是 基于 某 种 形式 的 属性 访问 控制 模型 。 在 本 
节 中 ， 我 们 将 重点 介绍 访问 控制 的 各 种 标准 ， 然 后 讨论 基于 属性 的 访问 控制 。 此 外 ， 我 
们 还 讨论 了 一 些 其 他 功能 ， 例 如 建立 Web 环境 中 的 信任 ， 以 及 基于 访问 控制 的 推理 控 
制 方法 。 对 于 WS 的 访问 控制 的 一 些 新 兴 标 准 分 别 是 SAML MI XACML, 
5.3.4.1 SAML 

本 章 参 考 文献 [SAML] 提出 了 单 点 授权 ， 旨 在 “解决 Web 单 点 登录 ”问题 。 基 于 
公 钥 / 私 钥 基础 设施 ， 组 中 的 一 个 身份 提供 者 允许 访问 组 内 各 项 功能 。 在 产品 中 提供 
SAML 的 公司 包括 : Microsoft Passport, OpenID (VeriSign) 和 全 球 登 录 系 统 (开源 ) Ul 
SAML 规范 所 述 ， 其 3 个 主要 组 成 部 分 是 : 

声明 : SAML 有 三 种 声明 。 认 证 声明 是 用 户 用 于 证 明 自 己 的 身份 (“约翰 . 史密斯 
在 上 午 9 点 通过 密码 验证 ”")。 属 性 声明 包含 有 关 用 户 的 特定 信息 ,例如 他 的 支出 限制 
( “John Smith 销售 经 理 每 日 旅行 限 支 1000 美元 ”) 。 授 权 决 定 声明 确定 用 户 可 以 做 什么 ， 
例如 他 是 否 可 以 购买 一 个 东西 (“John Smith 被 允许 购买 指定 的 东西 ”) 。 

SAML 权限 : 构成 SAML 声明 的 系统 实体 (也 称 为 Identity Provider - IdP 和 Asserting 
Party) 。 

服务 提供 商 : 使 用 SAML 声明 的 系统 实体 。 

依赖 方 ， 使 用 接收 到 声明 的 系统 实体 (也 称 为 SAML 请 求 者 ) 。 
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协议 : 定义 了 SAML 要 求 和 声明 的 方式 。 例 如 ， 现 在 使 用 的 是 SOAP over HTTP, nf 
能 在 将 来 会 使 用 其 他 方法 。 

绑 定 : 详细 说 明 SAML 消息 交换 如 何 映射 到 SOAP 交换 中 。 

身份 管理 的 一 个 关键 方面 是 SAML， 这 就 是 身份 信息 如 何 从 一 个 域 传 递 给 另 一 个 
域 。SAML 2. 0 版 本 将 是 Liberty Alliance 建立 其 他 的 联合 身份 应 用 程序 (如 使 用 Web AR 
务 基于 权限 的 属性 共享 ) 的 基础 。 

SAML 配置 文件 是 另 一 个 重要 的 概念 。 它 定义 了 核心 协议 和 声明 的 约束 和 /或 扩展 ， 
以 支持 特定 应 用 程序 对 SAML 的 使 用 。 它 激活 互 操作 性 ， 并 规定 如 何 使 用 适当 的 协议 消 
息 通 过 指定 的 绑 定 来 传达 特定 的 语句 。 (PAN, Web 浏览 器 SSO Profile， 指 出 如 何 通过 
许多 不 同 的 绑 定 使 用 身份 验证 查询 和 响应 消息 传递 SAML 身份 验证 声明 ， 以 便 为 浏览 
用 户 启用 SSO) 。 通 过 允许 支持 特定 的 SAML 配置 文件 〈 而 不 是 完整 的 规范 集 ) ， 和 希望 交 
换 SAML 消息 的 用 户 将 更 简单 地 获得 互动 操作 。 

SAML 的 突出 问题 包括 性 能 、 联 合 和 处 理 旧 版 应 用 程序 。 关 于 性 能 方面 ， 其 不 支持 
缓存 ， 并 且 必 须 通过 HTTP 使 用 SOAP 来 实现 。 此 外 ， 它 不 指定 加 密 ， 造 成 的 结果 是 可 
能 会 危及 策略 。 对 于 联合 ，SAML 没有 指定 认证 协议 。 此 外 ， 它 无 法 处 理 多 个 域 。 
IK, OASIS 正在 审查 联合 身份 管理 。 因 为 改进 费用 昂贵 ， 所 以 SAML 并 不 适用 于 旧版 应 
用 程序 。 
5.3.4.2. 可 扩展 访问 控制 标记 语言 

XACML 是 一 种 通用 的 授权 策略 模型 和 基于 XML 的 规范 语言 。 它 独立 于 SAML 规 
范 ， 并 具有 三 元 组 策略 语法 : «Object, Subject, Action > 。 它 支持 否定 授权 。XACML 
策略 处 理 器 的 输入 /输出 被 明确 地 定义 为 XACML 上 下 文 数据 结构 。 输 入 数据 由 XACML 
- specife 属性 指示 符 以 及 XPath 表达 式 引 用 。 

策略 由 多 个 规则 组 成 ， 较 高 级 别 的 策略 (PolicySet 元 素 ) 可 以 组 合成 一 组 策略 。 
XACML 将 多 个 规则 组 合 到 单个 策略 中 。 它 允许 多 个 用 户 拥有 不 同 的 角色 ， 并 将 策略 书 
写 与 应 用 环境 进行 分 离 。 其 目标 是 使 访问 控制 语言 规范 化 。 一 个 策略 有 4 个 主要 部 分 : 
目标 、 规 则 组 合算 法 标识 符 、 一 组 规则 和 约定 。 规 则 是 策略 的 基本 单位 。 规 则 的 主要 组 
成 部 分 是 : 目标 、 效 果 、 许 可 或 拒绝 、 条 件 。 实 际 上 一 个 策略 确定 了 一 套 资源 、 主 题 、 
操作 和 它 所 适用 的 环境 。 

XACML 包含 以 下 一 些 元 素 。 用 户 与 资源 进行 交互 。 每 个 资源 都 被 称 为 策略 执行 点 
( Policy Enforcement Point, PEP) 的 实体 保护 ， 它 是 语言 实际 使 用 ， 但 不 能 实际 上 确定 
访问 的 地 方 。PEP 将 其 请 求 发 送 到 策略 决策 点 (Policy Decision Point, PDP). 策略 实际 
可 能 会 或 可 能 不 会 存储 在 PDP， 但 具有 访问 的 最 终 决定 权 ， 同 意 或 拒绝 访问 ， 然 后 再 将 
决策 转发 给 PEP。 在 XACML 的 架构 中 ， 当 客户 端 在 服务 咒 上 发 出 资源 请 求 时 ，PEP f 
责 执行 访问 控制 策略 。 然 而 ， 为 了 执行 这 些 策略 ，PEP 将 在 策略 信息 点 (Policy Informa- 
tion Point, PIP) 中 形成 描述 请 求 者 的 属性 ， 并 将 授权 决定 委托 给 PDP。 适 用 的 策略 位 
于 由 策略 管理 点 (Policy Administration Point, PAP) 管理 的 策略 库 中 ， 并 在 PDP 进行 评 
fi, a PDP 返回 授权 决定 。 基 于 此 决定 ，PEP 可 以 向 客户 端 提供 适当 的 响应 。 如 
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5.3.4.2 rS, XACML 请 求 是 基于 三 元 (主体 、 对 象 和 动作 ) AY, XACML 响应 是 以 
下 之 一 : 人 允许、 合约 许可 、 拒 绝 、 不 适用 (PDP 无 法 定位 目标 与 所 需 资源 匹配 的 策 
WE). 、 不 确定 (发生 错 误 或 某 些 必需 值 丢失 ) 。 

AZ, XACML 协议 的 工作 原理 如 下 。 策 略 管理 点 (PAP) 创建 安全 策略 并 将 这 些 
策略 存储 在 相应 的 存储 库 中 。 策 略 执行 点 (PEP) 通过 做 出 决策 请 求 和 执行 授权 决定 来 
执行 访问 控制 。 策 略 信息 点 (PIP) 作为 属性 值 的 来 源 、 或 策略 评估 所 需 的 数据 。 策 略 
决策 点 (PDP) 评估 适用 的 策略 并 做 出 授权 决定 。 请 注意 ，PEP A PDP 可 能 包含 在 同一 
应 用 程序 中 ， 或 者 可 能 分 布 在 不 同 的 服务 器 上 。 

XACML 的 突出 问题 包括 分 布 式 响 应 和 策略 交叉 引用 。 关 于 分 布 式 响应 ， 当 PEP 响 
应 多 个 对 象 时 会 发 生 什么 ” 当 我 们 违背 PDP 或 欺骗 其 通信 时 会 发 生 什 么 ?如何 保 证 我 
们 引用 正确 的 对 象 ? 我 们 要 承认 这 个 事实 : 尽管 系统 是 分 布 式 的 ， 但 策略 可 能 仍然 只 位 
于 一 个 位 置 。 在 策略 交叉 引用 方面 ， 一 项 策略 可 能 会 涉及 另 一 种 策略 。 在 继承 或 者 与 相 
关 工 作 的 联合 /交互 时 ， 典 型 的 问题 就 会 出 现 。 处 理 这 种 突 发 事件 将 是 个 挑战 。 图 5. 15 
为 用 于 WS 的 XACML 访问 控制 模型 。 
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图 5.15 XACML 访问 控制 模型 





基于 属性 的 访问 控制 XACML 基本 上 实现 了 基于 属性 的 访问 控制 [ABAC] 。 虽 然 
基于 密码 的 访问 控制 在 封闭 环境 中 工作 良好 ， 但 比如 在 网 络 这 种 开放 的 环境 中 ， 实 现 这 
样 的 机 制 是 困难 的 。 因 此 ， 基 于 属性 的 访问 控制 的 概念 是 在 2000 年 初 形成 的 。 通 过 这 
种 方法 ， 用 户 将 会 呈现 他 的 证 书 。 这 些 赁 证 将 由 某 个 证 书 机 构 颁 发 。 如 果 需 要 ， 系 统 
(或 服务 器 ) 将 使 用 多 个 证 书 机 构 验证 用 户 的 证 书 。 一 旦 证 书 被 验证 通过 ， 系 统 将 检查 
证 书 的 策略 ， 并 确定 用 户 对 资源 的 访问 权 。 

ABAC 已 经 在 多 个 系统 中 实现 ， 包 括 国 防 部 门 的 以 网 络 为 中 心 的 企业 服务 和 全 球 信息 
网 格 。ABAC 也 可 用 于 实现 RBAC (基于 角色 的 访问 控制 ，Role - Based Access Control ) 。 
在 这 种 情况 下 ， 用 户 具 有 取决 于 自身 角色 的 证 书 ， 基 于 此 证 书 ， 用 户 被 授予 访问 权限 。 从 
根本 上 来 说 ， 证 书 是 用 户 的 一 些 属性 。 最近 ，UCON (使 用 控制 ， Usage Control) 模型 已 
经 被 提出 ， 这 个 模型 是 关于 控制 资源 的 使 用 以 及 控制 对 资源 的 访问 的 。 以 电话 卡 作为 例 
子 ， 当 使 用 电话 卡 时 ， 其 余额 被 控制 ， 并 且 访 问 取决 于 电话 卡 的 余额 ， 其 实质 上 是 剩余 的 
使 用 时 间 量 。 将 ABAC 与 UCON 集成 在 一 起 是 有 可 能 的 ， 有 学 者 提出 一 个 模型 ， 就 是 基于 
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Zsa WJSJURA I ELdoxmR l") 


一 、 


主体 /用 户 的 属性 和 资源 的 使 用 来 控制 访问 〈 见 本 章 参 考 文献 [PARK] ) 。 





5.3.5 数字 身份 管理 
身份 管理 〈 也 称 为 联合 身份 管理 或 数字 身份 管理 








E) 5 WS 密切 相关 。 在 访问 资源 之 


前 ， 用 户 以 及 WS 必须 进行 身份 验证 。 单 点 登录 是 一 个 流行 的 解决 方案 ， 一 次 登录 为 用 








户 提供 访问 各 种 资源 的 服务 。 此 外 ，SAML 目前 为 WS 提供 身份 验证 工具 。 然 而 ， 随 着 




















电子 商务 的 监管 要 求 ， 需 要 一 个 更 强大 的 认证 机 制 ， 这 种 机 制 被 称 为 身份 管理 。 





数字 身份 管理 基础 性 
及 为 SSO 和 联合 身份 管理 























的 两 个 概念 是 SSO 和 联合 身份 管理 。 我 们 需要 对 相关 概念 以 
开发 的 技术 和 标准 进行 讨论 。 这 包括 自由 联合 体 的 工作 、 身 
份 元 系统 及 其 信息 卡 实施 、 OpenID 项 目 和 Shibboleth 。 








如 本 章 参考 文献 [SSO] 中 所 述 ，SSO 是 用 户 登 录 一 次 ， 可 以 在 联合 体 中 访问 所 有 
系统 的 性 质 。 这 样 ， 用 户 只 须 登录 一 次 ， 并且 可 以 访问 联合 体 或 团体 联合 会 或 组 织 中 的 
资源 ， 而 不 会 被 提示 需 在 每 个 组 织 中 重新 登录 。 目 前 存在 两 种 类 型 的 SSO 机 制 基于 








Kerberos 和 基于 智能 卡 的 。 在 Kerberos 机 





























BJ HH, Kerberos 的 票据 授权 票 (Ticket - Gran- 














ting, Ticket, TOT) 用 于 授予 作证 。 在 基于 智能 卡 的 登录 中 ， 用 户 使 用 智能 卡 进行 全 
录 。 企 业 单 点 登录 (Enterprise Single Sign - On, ESSO) 提供 了 在 访问 多 个 应 用 程序 时 








能 够 最 小 化 密码 和 月 


HP ID 数量 的 支持 。 











如 本 章 参 考 文献 [FED] 所 述 ,“ 联 合身 份 ”或 身份 的 “联合 ”描述 了 技术 、 标 准 





























和 用 例 ， 以 便 在 其 他 自治 安全 域 中 实现 身份 信息 的 可 移植 性 。 其 中 的 用 例 包括 跨 域 、 基 
于 Web 的 sso 等 典型 用 例 。 目 前 ， 各 种 网 站 正在 通过 Open ID 实施 联合 身份 管理 ， 其 





目标 是 确保 一 个 域 的 用 户 以 无 颖 的 方式 利用 上 


























日 另 一 个 域 所 创建 的 所 有 技术 。 请 注意 ， 联 





合体 是 关于 一 起 工作 去 执行 任务 (如 B2B 操作 ) 或 解决 特定 问题 的 组 织 。 虽 然 这 个 想 














法 已 经 存在 了 很 多 锯 








的 联合 体 。 在 这 样 


负担 。 


通过 适当 的 联合 身份 管理 ， 月 
户 属性 管理 。 跨 域 SSO 是 联合 身份 管理 的 流行 技术 之 一 ， 
标准 的 突出 联合 体 之 一 是 自 














发 的 新 技术 。 联 合身 份 管理 






































ID 项 目 以 及 信息 卡 。 本 部 分 将 
如 本 章 参 考 文献 【INFO ] 
它 使 人 们 能 够 拥有 并 采 月 




















作 的 身份 系统 ， 以 便 系统 在 迁移 到 不 同 的 技术 时 还 能 












































FE， 但 最 近 随 着 WS 的 新 兴 标 准 出 现 ， 才 使 得 我 们 现在 可 以 拥有 安全 
的 联合 体 中 ， 必 须 对 用 户 访 问 资源 进行 管理 ， 但 不 能 对 用 户 造 成 

















户 应 能 够 跨 域 共享 数据 ， 支 持 SSO 以 及 启用 路 域 用 
然而 最 近 已 经 有 很 多 正在 开 





由 联盟 ， 其 他 的 工作 就 是 开放 式 


既 述 丑 份 管理 的 各 种 发 展 情况 。 
， 壬 份 元 系统 是 一 种 “可 互 操作 的 数字 身份 架构 ， 


合 需 要 基于 多 种 底层 技术 、 具 
体 实施 和 提供 者 "。 基 于 这 种 方法 ， 用 户 可 以 继续 维护 他 们 的 身份 ， 并 选择 将 为 他 们 工 


Eg: 











EE 他们 的 身份 。 映 份 元 系统 的 








角色 是 身份 提供 者 、 依 赖 方 和 主体 。 身 份 提供 者 发 行 数字 身份 ， 依 赖 方 的 身份 是 需要 各 


种 服务 的 一 方 ， 主 体 包括 最 终 用 户 和 组 织 。 








身份 主要 使 用 安全 令 牌 的 声明 来 表示 。 通 过 这 些 声 明 ， 身 份 提供 者 、 依 赖 方 和 主体 











可 以 进行 协商 等 操作 。WS - Trust 和 WS — Federation 用 于 获取 声明 。 双 方 之 间 的 协商 采 
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() 二 计算 开发 与 安全 
用 WS - Security Policy 和 WS - MetadataExchange 进行 。 用 户 对 外 产生 的 无 颖 操作 由 叫 作 
IdentitySelector 的 客户 端 软件 提供 ， 该 软件 可 以 访问 类 似 信息 卡 等 相关 技术 。 

言 息 卡 是 身份 元 系统 的 实现 。 如 本 章 参考 文献 [INFO] 所 述 ， 信 息 卡 是 个 人 数字 
身份 ， 人 们 可 以 在 线 使 用 。 信 息 卡 可 以 是 卡片 形状 的 图 片 ， 人 们 可 以 使 用 这 些 卡 来 管理 
也 们 的 身份 。 由 于 实现 了 身份 元 系统 ， 所 以 参与 信息 卡 实施 的 各 方 是 身份 提供 者 、 依 赖 
方 和 主体 。 身 份 选择 器 (如 Windows CardSpace ) 用 于 存储 和 管理 用 户 身 份 。 信 息 卡 也 
文 持 SSO， 用 户 可 以 在 一 个 地 方 登录 并 访问 网 络 上 的 各 种 资源 。 

有 两 种 类 型 的 信息 卡 。 一 种 类 型 是 个 人 信息 卡 ， 使 用 户 能够 发 布 声明 (例如 姓名 、 
电话 等 ) 并 通知 各 个 站 点 。 另 一 种 类 型 是 管理 型 信息 卡 ， 身 份 提供 者 提出 关于 该 用 户 
的 声明 。 
5.3.5.1 OpenID 

如 本 章 参考 文献 [OPEN] PR, OpenID 是 一 种 开放 的 、 分 散 的 用 户 标识 标准 ， 人 允 
许 用 户 以 相同 的 数字 身份 登录 许多 服务 。OpenID 本 质 上 是 一 个 URL， 用 户 被 OpenID 提 
供 者 认证 。 Symantec ( 赛 门 铁 克 公司 ) 和 Microsoft 等 许多 公司 都 支持 OpenID, 例如 ， 
Microsoft 提供 OpenID 与 其 Windows CardSpace 之 间 的 互 操 作 性 。 OpenID 扩展 了 身份 元 系 
统 的 实体 ， 并 包含 以 下 内 容 : 

B RHP: 想 要 向 站 点 声明 自己 的 身份 的 人 。 

B 标识 符 : 最 终 用 户 选 择 的 URL 作为 其 OpenID 标识 符 。 

图 身份 提供 者 或 OpenID 提供 者 : 该 实体 提供 注册 OpenID URL 的 服务 ， 并 提供 
OpenID 身份 验证 。 

图 依赖 方 ， 要 验证 最 终 用 户 身 份 的 网 站 (本 质 上 是 服务 提供 商 ) 。 

图 服务 器 或 服务 器 代理 : 验证 最 终 用 户 标 识 符 的 服务 器 。 

B 用 户 代 理 : 用 户 通过 用 户 代 理 (例如 浏览 器 访问 号 份 提供 者 或 依赖 方 。 

OpenID 的 使 用 如 下 : 首先 ， 用 户 访 问 依赖 方 ( 例 如， 服务 提供 商 ) 的 网 站 来 请 求 
服务 。 这 个 依赖 方 有 一 个 OpenID 表单 ， 它 是 用 户 的 登录 名 。 其 次 ， 用 户 将 在 逻辑 过 程 
之 前 给 出 自己 的 身份 信息 。 从 这 些 信 息 中 ， 依 赖 方 将 发 现 身 份 提供 者 的 网 站 。 如 本 章 参 
考 文献 [OPEN] 所 述 ， 依 赖 方 和 身份 提供 者 可 能 具有 共享 的 密码 ， 这 个 密码 由 关联 句 
柄 引用 并 被 依赖 方 存 储 。 然后， 依赖 方 将 用 户 的 浏览 絮 引 导 至 身份 提供 者 ， 以 便 用 户 可 
以 与 身份 提供 者 进行 身份 验证 ， 依 赖 方 然后 存储 结果 。 依 赖 方 将 用 户 的 Web 浏览 器 重 
定向 到 身份 提供 者 ， 以 便 用 户 可 以 与 身份 提供 者 进行 身份 验证 。 通 常 ， 身 份 提供 者 从 用 
户 那里 请 求 密 码 ， 然 后 咨询 用 户 是 否 要 信任 依赖 方 。 如 果 用 户 拒绝 此 请 求 ， 则 拒绝 对 服 
务 的 访问 。 如 果 没 有 ， 则 用 户 浏览 器 被 定向 到 具有 用 户 和 凭证 的 依赖 方 。 浏 览 器 带 着 用 户 
的 证 书 被 重 定向 到 依赖 方 网 站 上 的 指定 返回 页 面 。 这 个 过 程 中 ， 认 证 方 必 须 核 实证 书 确 
实 是 来 自身 份 提供 者 。 
5.3.5.2 Shibboleth 

Shibboleth 是 一 个 分 布 式 Web 资源 访问 控制 系统 ， 允 许 联盟 共同 合作 去 共享 基于 
Web 的 资源 〈 见 本 章 参 考 文献 [SHIB] ) 。 它 定义 了 一 个 协议 ， 携 带 身份 验证 信息 和 从 
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一 、 


第 5 章 面向 服务 的 计算 和 安全 【《 司 








主 站 到 资源 站 点 的 用 户 属 性 。 然 后 ， 资 源 站 点 可 以 使 用 属性 来 对 用 户 进 行 访问 控制 决 
策 。 这 个 基于 Web 的 中 间 件 层 使 用 SAML 实现 。 访 问 控制 分 阶段 进行 。 在 第 一 阶段 ， 
资源 站 点 将 用 户 重 定向 到 其 主 站 点 ， 并 获得 由 主 站 点 认证 用 户 的 句柄 。 在 第 二 阶段 ， 资 
源 站 点 返回 主 站 点 的 属性 权限 的 句柄 ， 并 返回 一 组 用 户 的 属性 ， 依 此 进行 访问 控制 
决定 。 

Shibboleth 和 SSO 存在 一 些 问题 。 资 源 网 站 如 何 知 道 用 户 的 主 站 点 ” 它 又 如 何 信任 
返回 的 句柄 ?答案 是 ， 它 由 系统 信任 模型 处 理 。 认 证 过 程 如 下 : 当 资 源 站 点 从 用 户 请 求 
主 站 点 时 ， 他 从 已 经 通过 证 书 认证 的 受信 任 站 点 列表 中 选择 它 。 句 柄 通过 SAML 签名 以 
及 消息 进行 验证 。 用 户 从 列表 中 选择 主 站 点 。 如 果 他 已 经 注册 ， 主 站 点 会 对 用 户 进 行 身 
份 验 证 。 主 站 服务 器 身份 验证 后 ,会 将 具有 SAML 标记 的 消息 返回 给 目标 资源 站 点 。 资 
源 站 点 (如果 标记 匹配 ) 然后 为 用 户 提供 别名 (句柄) ， 并 向 主页 发 送 声明 消息 ， 以 确 
定 用 户 必 需 的 属性 是 否 可 用 。 为 了 确保 隐私 ， 系 统 每 次 为 用 户 的 身份 提供 不 同 的 别名 。 
它 每 次 都 需要 已 发 布 的 用 户 属性 策略 ， 从 而 实现 对 目标 站 点 中 权限 属性 的 控制 。 一 般 情 
况 下 ， 协 议 属性 发 布 策 上 略 处 于 用 户 和 管理 员 之 间 。 

信任 是 Shibboleth 的 核心 。 它 完全 信任 在 联盟 中 注册 的 目标 资源 站 点 和 原始 主 站 
点 。 现 有 的 信任 模型 的 缺点 是 认证 机 构 和 属性 权限 之 间 没 有 区 别 。 我 们 需要 有 一 个 允许 
更 复杂 的 信任 分 配 范围 ， 例 如 静态 或 动态 认证 授权 。 现 有 信任 模式 的 男 一 个 缺点 是 它 只 
提供 基本 的 访问 控制 功能 。 它 缺乏 许多 应 用 程序 所 需 的 灵活 性 和 复杂 性 ， 它 们 必须 根据 
角色 层次 结构 或 各 种 约束 (如 每 天 的 时 间或 职责 分 离 ) 来 提供 访问 控制 决策 。 

在 基本 的 Shibboleth 中 ， 目 标 站 点 信任 原始 站 点 ， 以 对 其 用 户 进行 身份 验证 并 正确 
管理 其 属性 ， 而 原始 站 点 信任 目标 站 点 ， 以 向 其 用 户 提 供 服 务 。 信 任 是 由 数字 签名 的 
SAML 消息 来 传达 的 ， 签 名 时 使 用 了 目标 和 源 服务 器 密 钥 对 。 每 个 Shibboleth 系统 的 每 
个 站 点 中 只 有 一 个 密 钥 对 。 因 此 ， 每 个 Shibboleth 系统 只 有 一 个 信任 点 。 所 以 这 需要 一 
个 更 细 粒 度 的 分 布 式 信任 模型 ， 并 且 能 够 使 用 多 个 原始 权限 来 发 布 和 签署 身份 验证 和 属 
性 声明 。 多 个 机 构 应 该 能 够 向 用 户 发 布 属性 ， 目 标 站 点 也 能 够 验证 发 行者 与 用 户 之 间 的 
绑 定 。 这 样 做 的 目标 是 能 够 在 其 策略 中 说 明 ， 发 布 哪 一 个 其 信任 的 属性 权限 ， 哪 些 属 性 
属于 哪些 用 户 组 。 在 进行 访问 控制 决策 时 ， 目 标 站 点 能 够 独立 于 发 布 站 点 的 属性 和 权限 
信任 。 但 是 ， 并 非 所 有 属性 发 布 授 权 机 构 都 是 原始 站 点 的 一 部 分 。 如 果 目 标 站 点 具有 由 
多 个 授权 发 布 的 属性 ， 则 应 允许 用 户 访问 其 资源 。 信 任 基 础 架构 应 支持 动态 授权 ， 以 便 
特权 属性 的 持 有 者 可 以 将 其 (一 小 部 分 ) 委派 给 别人 ， 而 不 必 重 新 生成 系统 中 的 任何 
内 容 。 目 标 站 点 应 该 能 够 决定 它 是 否 真正 地 信任 原始 的 属性 存储 库 。 如 果 不 是 ， 则 可 以 
要 求 更 强大 的 属性 授权 权限 ， 而 不 是 由 发 送 Web 服务 器 的 SAML 签名 授予 的 权限 。 

Shibboleth 定义 了 各 种 信任 模型 ， 这 些 模型 已 经 使 用 X. 509 实现 。 我 们 可 以 从 两 个 
不 同 的 方面 来 看 待 信任 : 

一 是 在 属性 发 布 授权 机 构 的 信任 分 配 。 

二 是 原始 站 点 属性 存储 库 的 可 信赖 性 。 

信任 模型 及 其 实现 的 进一步 细节 ， 以 及 授权 和 隐私 问题 在 本 章 参 考 文献 [ TRUST ] 
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() 二 计算 开发 与 安全 
中 有 讨论 。 
5.3.5.3 自由 联盟 

自由 联盟 的 成 立 是 为 了 促进 身份 管理 的 标准 。 它 现在 包括 100 多 个 成 员 ， 其 中 包括 
技术 开发 商 和 提供 商 以 及 消费 者 。 自 由 身份 联合 会 (也 称 为 身份 联盟 ) 和 自由 身份 
Web 服务 (也 称 为 身份 WS) 是 其 发 布 的 两 个 主要 服务 功能 。 
身份 联合 使 得 网 络 用户 〈 例 如 ， 电 子 商 务 用 户 ) 可 以 进行 身份 验证 和 登录 到 域 ， 
从 而 可 以 访问 多 个 服务 。 同 时 ， 它 也 是 SAML 2.0 的 基础 。 如 本 章 参 考 文献 [LIB] 所 
述 ， 身 份 WS 标准 是 部 署 和 管理 基于 身份 的 WS 的 开放 框架 。 这 些 WS 应 用 程序 包括 地 
理 位 置 、 联 系 人 通信 短 、 日 历 、 移 动 消息 和 自由 人 员 服 务 。 通 过 这 些 服务 ， 可 以 以 隐私 
保护 的 方式 在 网 络 上 管理 书签 、 博 客 、 照 片 共享 和 相关 社会 服务 。 隐 私 和 策略 管理 是 自 
由 联盟 工作 的 关键 方面 。 在 本 章 参考 文献 [LIB] 中 也 指出 ， 全 球 已 经 有 超过 十 亿 个 支 
持 自由 的 设备 被 跟踪 。 身 份 联合 最 新 的 功能 包括 身份 管理 框架 和 身份 保证 框架 。 身 份 管 
理 框架 是 支持 身份 存储 和 管理 的 标准 集合 ， 它 使 用 LDAP ( 轻 量 级 目录 访问 协议 ，Light- 
weight Directory Access Protocol) 、SAML 和 WS - Trust 标准 。 身 份 保 证 框架 支持 四 个 身份 
保证 级 别 ， 这 些 级 别 由 国家 标准 与 技术 研究 所 确定 。 图 5. 16 说 明了 各 种 身份 管理 技术 。 
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身份 管理 器 (管理 从 用 户 
到 多 个 系统 的 身份 ) 
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系统 A 系统 B 
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图 5.16 身份 管理 








5.3.6 WS 安全 模型 


WS 安全 中 的 大 部 分 工作 都 侧重 于 访问 控制 模型 。 也 就 是 说 ,访问 控制 策略 将 确定 
用 户 能 否 对 WS 提供 资源 的 访问 。 基 于 访问 控制 模型 已 经 开发 了 几 种 类 似 XACML 的 标 
准 。 然 而 ， 对 于 许多 应 用 程序 ， 访 问 控制 模型 并 不 能 满足 其 需要 。 例 如 ， 在 复合 WS 的 
情况 下 ， 一 个 Web 服务 S1 可 以 调用 另 一 个 Web 服务 S2 。 在 这 样 的 调用 中 ，S1 的 权限 
将 被 执行 ， 而 不 是 调用 SI 的 用 户 U 的 权限 。 这 意味 着 返回 给 U 的 信息 可 能 是 用 户 未 被 
78 
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授权 获取 的 信息 。 为 了 避免 这 样 的 安全 性 损害 ， 用 户 U 必须 将 其 权限 委派 给 S1， 以 便 
在 S1 调用 S2 时 使 用 UU 的 权限 。 这 种 调用 由 所 使 用 的 授权 模型 来 管理 。 

复合 WS 的 另 一 个 安全 问题 是 信息 流 。 也 就 是 说 ， 当 WS 组 成 时 ， 关 键 是 不 能 存在 
从 高 级 别 到 低级 别 的 信息 流 。 我 们 的 研究 重点 是 WS 安全 性 的 各 个 方面 ， 包 括 Web 服务 
组 合 的 授权 模型 和 信息 流 。 因 此 ， 在 本 节 中 ， 将 概述 我 们 在 WS 安全 性 方面 的 研究 。 同 
时 ， 特 别 总 结 了 我 们 最 近 的 论文 〈 见 本 章 参 考 文献 [SHE07] 、[SHE08] 和 [SHE09]) 
中 的 报告 。 在 本 节 中 ， 还 将 介绍 WS 的 授权 (委托) 模型 以 及 服务 组 合 中 的 信息 流 ， 并 
讨论 WS 的 多 级 安全 性 。 图 5. 17 说 明了 WS 的 安全 模型 。 


Web 服 务 的 
Web 服 务 的 
Web 服 务 的 EE 


图 5.17 Web 服务 的 安全 模型 





































































Web 服 务 的 访 
问 控制 模型 


5.3.6.1 授权 模型 

访问 控制 模型 指定 主体 对 客体 的 访问 权限 。 但 是 ， 它 没有 指定 调用 WS 的 策略 ， 这 
需要 我 们 有 适当 的 策略 来 调用 WS。 例如 ,假设 服务 S1 调用 服务 S2 且 S1 无 法 访问 资源 
X, m S2 可 以 访问 资源 X， 如 果 S2 必须 访问 X 并 将 X 返回 到 S1， 则 会 出 现 安全 冲突 。 
这 意味 着 当 S2 代表 SI 访问 X mp, Du SI 的 权限 必须 传递 给 S2。 在 上 述 示例 中 ， 这 样 的 
策略 将 起 作用 ， 因 为 S2 具有 S1 不 具备 的 其 他 凭证 。 问 题 是 如 果 S2 无 法 访问 X， 而 51 
访问 X， 会 发 生 什 么 。 如 果 SI 的 凭证 传递 给 S2 ， 则 S2 将 可 以 访问 X。 

我 们 对 WS ( 见 本 章 参考 文献 [SHE07] 、[ SHE08] ) 的 授权 模型 进行 了 广泛 的 研 
究 。 我 们 认为 ， 授 权 模 型 必须 是 弹性 的 。 在 某 些 情况 下 ， 在 不 会 违反 访问 控制 策略 的 情 
况 下 ， 即 使 只 是 有 限 的 凭证 ，S2 也 可 以 操作 。 也 就 是 说 ， 如 果 S1 调用 S2， 则 S2 将 不 
会 访问 si 无 法 访问 的 任何 资源 。 然 而 ， 在 一 些 情况 下 ，S2 可 能 需要 使 用 其 全 部 凭证 进 
行 操作 ， 那 个 时 候 ，S2 必须 决定 哪些 信息 可 以 传递 给 SI, 

如 果 没 有 重生 的 凭证 ， 授 权 模 型 变 得 更 加 复杂 。 也 就 是 说 ， 如 果 Sl1 和 S2 没有 任何 
共同 的 凭证 ， 则 $1 无 法 调用 S2。 例 如 ,如果 si 以 教授 的 身份 运行 ， 而 S2 则 以 秘书 的 
身份 进行 操作 。 如 果 教 授 和 秘书 没有 任何 共同 的 赁 证， 则 教授 不 能 要 求 秘书 执行 某 些 功 
能 。 在 这 种 情况 下 ， 系 统 必须 确定 如 何 委托 。 责 任 分 工 是 安全 模型 的 重要 条 件 。 这 里 的 
挑战 是 如 何 将 责任 的 分 工 情况 转换 到 WS 的 安全 模型 中 。 为 了 WS 的 组 合 和 基于 链 的 
WS， 将 访问 控制 模型 与 委托 模型 进行 结合 需要 大 量 研 究 工作 。 基 于 链 的 Web 服务 的 形 
式 为 S1 调用 S2, S2 调用 S3 WU S3 调用 S4。 图 5. 18 说 明了 授权 模型 。 
5.3.6.2 ”信息 流 模型 

要 了 解 信 息 流 模型 ， 我 们 需要 回顾 历史 上 的 模型 。 早 在 1973 年 ，Bell 和 LaPadula 
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服务 请 求 者 John 
A 被 以 约翰 的 
特权 而 调用 





Web 服 务 A Web 服 务 B Web 服 务 C 


当 A 请 求 B 时 ， 应 该 以 John 
的 特权 或 A 的 特权 执行 B? 
John 应 否 将 他 的 特权 委托 给 A? 


图 5.18 授权 模型 


模型 被 开发 用 于 访问 控制 。 虽 然 这 种 模型 阻止 了 一 个 低级 主体 直接 获取 高 级 数据 的 行 
为 ， 但 并 不 能 防止 非法 信息 流 的 流动 。 例 如 ， 通 过 操纵 文件 中 的 锁 ， 数 据 可 以 被 隐蔽 地 
从 高 级 别 主体 传递 到 低级 别 主体 。 为 了 防止 这 种 流动 ，Goguen 和 Meseguer 在 1982 Hs 
后 开发 了 非 干扰 模型 。 使 用 这 种 模型 ， 数 据 不 可 能 从 高 级 别 主体 流向 低级 别 主体 。 
上 ， 高 级 别 主体 的 行为 并 不 妨碍 低级 别 主体 。 我 们 对 WS 的 研究 应 irc 

到 目前 为 止 ， 已 经 做 了 很 多 工作 去 防止 WS 中 出 现 非 法 信息 流 。 然 而 ， 以 前 的 工作 
侧重 于 以 下 两 个 方面 。 每 个 Web 服务 均 满足 安全 属性 ，WS 的 组 合 也 满足 了 安全 属性 。 
但 是 ， 中 介 服 务 之 间 的 信息 流 未 被 考虑 。 例 如 ， 如 果 WS SI WS S2, S3 和 S4 组 成 ， 
而 最 终结 果 是 安全 的 ， 则 从 S3 到 sl 仍然 可 能 存在 非法 的 信息 流 。 图 5. 19 说 明了 信息 
流 模型 。 
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服务 请 求 者 R 

4 请 求 Web 服 务 A 

R 具 有 对 的 读 
取 访 问 权 限 





Web 服 务 A 请 
求 Web 服 务 B 






Web 服 务 B 


A 具 有 对 X 和 Y 的 读 取 访 问 权限 


如 果 B 以 A 的 凭证 而 不 ERRE 证 执行 ， 
则 有 漠 在 的 信息 流 违 规 。 


图 $. 19 ”信息 流 模型 








我 们 要 寻求 新 的 方法 去 阻止 这 种 信息 流 。 以 前 的 模型 做 出 的 另 一 TREE WS 的 组 
成 是 由 一 个 可 靠 的 过 程 执行 的 。 当 在 Web 环境 中 存在 多 个 安全 域 时 ， 这 是 不 现实 的 。 
因此 ， 我 们 不 能 做 这 样 的 假设 。 我 们 的 工作 也 没有 这 样 的 假设 。 

我 们 在 WS 信息 流 模 型 方面 的 工作 详 见 本 章 参 考 文献 【SHE09 ] 。 特 别 是 ,我们 定 
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义 了 转换 因子 ， 它 用 来 测量 从 输出 推测 的 输入 和 服务 的 逻辑 数据 之 间 的 相似 性 。 反 过 来 
又 用 来 确定 信息 是 否 从 较 高 级 别 的 服务 非法 流向 较 低 级 别 的 服务 。 我 们 还 开发 了 协议 ， 
使 组 合 过 程 不 被 信任 。 然 后 ， 我 们 开发 了 用 于 在 Web 环境 中 协作 执行 安全 验证 的 算法 。 
5.3.6.3 多 级 安全 WS 

WS 的 大 部 分 安全 研究 都 是 基于 自主 访问 控制 。 特 别 地 ， 基 于 属性 的 访问 控制 正在 
被 应 用 到 面向 WS 的 许多 模型 中 。 我 们 的 研究 重点 是 授权 模型 和 信息 流 模型 ， 这 些 模 型 
为 了 追求 无 干扰 ， 受 到 了 Goguen 和 Meseguer 模型 的 影响 。 

WS 的 多 层次 安全 性 还 没有 太 多 的 工作 报告 。 不 过 ， 我 们 认为 多 层次 安全 是 一 个 重 
要 的 方面 。 我 们 需要 确保 Bell 和 LaPadula 模型 的 简单 安全 性 和 * 属性 不 仅 能 得 到 满足 ， 
而 且 Gouge 和 Meseguer 的 无 干扰 属性 也 可 得 到 满足 。 在 Bell 和 LaPadula 模型 中 ， 如 果 
主体 的 安全 级 别 高 于 客体 的 安全 级 别 ， 则 主体 可 以 从 对 象 中 读 取 信息 。 如 果 主 体 的 安全 
级 别 低 于 客体 的 安全 级 别 ， 则 主体 向 客体 写 人 人 信息。 另外， 对 于 WS 我 们 还 需要 调用 策 
略 。 也 就 是 说 ， 如 果 SI 服务 描述 的 安全 级 别 高 于 S2 服务 描述 的 安全 级 别 ， 则 服务 SI 
调用 另 一 服务 S2。 然 而 ， 当 S1 调用 S2 时 ，S52 将 在 S1 的 安全 级 别 进行 工作 。 这 种 方式 
S2 将 拥有 S1 的 全 部 凭证 。 因 此， 如 果 S2 服务 描述 安全 级 别 高 于 S, M S1 不 能 调用 
S2。 例 如 ， 如 果 so 的 服务 描述 是 隐秘 的 ， 并 且 S1 的 服务 描述 未 被 分 类 ， 且 S1 在 未 分 
类 级 别 操作 ， 则 S1 不 能 调用 S2。 假 设 ， 如 果 人 允许 S1 调用 S2， 则 S2 必须 以 未 分 类 的 级 
别 操作 ， 这 是 一 个 问题 ， 因 为 S2 的 描述 是 隐秘 的 。 现 在 假设 S1 和 S2 的 服务 描述 满足 
了 这 些 策略 。 然 而 ， 如 果 SI 在 未 分 类 操作 ， 并 且 S2 被 允许 在 秘密 级 别 操作 ， 则 S2 不 
能 将 任何 结果 发 送 回 S1 ， 因 为 它 将 违反 * 属性 。 






















































































































































































5.4 总结 和 展望 


本 章 概述 了 面向 服务 的 计算 相关 概念 和 服务 的 安全 问题 。 正 如 我 们 所 说 ， 服 务 是 云 
计算 的 核心 和 灵魂 。 这 是 因为 云 计算 作为 服务 提供 给 客户 。 首 先 ， 我们 讨论 了 服务 概 
念 、SOA 和 WS、 新 兴 的 XX 服务 模式 和 SOAD。 然 后 ， 又 讨论 了 SOA 和 WS 的 安全 性 。 
寺 别 地 ， 专 门 讨论 了 WS 的 访问 控制 ， 比 如 SAML 和 XACML 的 标准 ， 以 及 一 些 新 兴 的 
安全 模型 ， 如 授权 模型 、 信 息 流 和 多 层次 安全 性 。 另 外 ， 还 前 述 了 WS 的 身份 管理 。 

有 几 个 领域 需要 将 来 的 研究 和 开发 。 虽 然 WS 有 许多 发 展 ， 但 是 面临 的 主要 挑战 是 
语义 Web 技术 的 应 用 和 WS 的 安全 性 保护 。 此 外 ， 全 球 信 息 网 格 和 以 网 络 为 中 心 的 企业 
服务 等 重大 设施 都 是 基于 WS 和 SOA。 因 此 ， 通 过 使 用 语义 网 络 来 确保 这 些 技术 得 以 实 
现 ， 以 及 使 WS 更 加 智能 化 对 于 下 一 代 网 络 来 说 至 关 重要 。 

对 于 SOAD ， 我 们 没有 标准 的 方式 来 建 模 和 分 析 服 务 以 及 安全 的 服务 。 目 前 ， 我 们 
还 需要 一 个 合适 的 服务 安全 模型 。ABAC 就 是 一 个 这 样 的 模型 。 我 们 需要 检查 ABAC 如 
何 与 UCON 集成 。 还 需要 更 详细 地 检查 服务 的 推理 问题 。 最 后 ， 我 们 还 要 开发 类 似 于 
SAML 和 XACML 的 标准 ， 以 包含 更 复杂 的 细 粒 度 访 问 控制 形式 。 随 着 WS 的 广泛 应 用 ， 
我 们 在 网 络 上 进行 越 来 越 多 的 事务 ， 例 如 我 们 参与 社交 网 络 。 因 此 保护 个 人 身份 以 及 确 
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保 授权 访问 至 关 重要 。 此 外 ， 用 户 可 能 涉及 多 个 社交 网 络 和 多 个 事务 。 用 户 可 能 在 不 同 




















的 系统 中 具有 不 同 的 身份 。 所 以 我 们 需要 有 效 的 机 制 来 管理 可 能 数 十 亿 用 户 的 众多 身 

















份 。 里 份 管理 研究 刚刚 开始 。 我 们 还 需要 在 这 方面 做 更 多 的 工作 ,包括 制定 适当 的 标 













































































准 。 最 后 ， 关 于 安全 模型 ， 虽 然 大 部 分 工作 都 集中 在 WS 的 访问 控制 模型 上 ， 但 我 们 已 
经 对 授权 模型 和 信息 流 模 型 进行 了 一 些 工作 。 使 用 授权 模型 ， 它 的 目标 是 使 服务 将 
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证 授权 给 其 调用 执行 的 男 一 个 服务 。 使 用 信息 流 模型 ， 目 标 是 确保 在 服务 组 合 期 间 信 息 





不 会 从 高 级 别传 递 到 低级 别 。 虽 然 WS 的 访问 控制 模型 相当 先进 ， 但 授权 模型 和 信 
模型 的 研究 还 处 于 起 步 阶段 。 我 们 的 工作 只 探讨 了 一 些 初步 的 想法 ， 还 需要 正式 指 
体 的 安全 属性 ， 并 证 明 服务 对 于 授权 模型 和 信息 流 模 型 是 安全 的 。 另 外 ， 还 需要 检 






































问 控制 、 授 权 和 信息 流 模型 的 集成 。 
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作为 参考 ， 我 们 已 经 给 出 了 各 种 Web 服务 和 安全 WS 技术 、 标 准 和 协议 的 URL, 
应 该 注意 的 是 ， 这些 URL 可 能 会 改变 ， 因 此 我 们 督促 读者 关注 W3C 和 OASIS 网 页 以 及 
微软 和 IBM 等 企业 开发 标准 的 网 页 ， 以 跟 上 技术 的 发 展 。 如 5. 1 节 所 述 ， 云 计算 通常 作 











为 服务 集合 提供 给 消费 者 。 因 此 ， 本 童 讨论 的 主题 是 构成 了 云 计算 和 云 计算 安全 的 基本 


内 容 。 
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#68 语义 Web 服务 和 安全 


6.1 概述 


在 前 一 章 中 ， 我 们 讨论 了 服务 计算 和 安全 服务 计算 。 虽 然 服 务 正在 成 为 云 计 算 的 一 
个 重要 方面 ， 但 目前 的 服务 并 不 能 使 用 语义 。 此 外 ， 虽 然 目 前 的 网 络 技术 使 得 从 语法 角 
度 整 合 信息 变 得 便利 ， 但 是 仍然 需要 做 很 多 工作 来 处 理 各 种 系统 和 应 用 程序 的 不 同 语 
义 。 也 就 是 说 ， 目 前 的 网 络 技术 在 信息 管理 和 集成 方面 很 大 程度 上 取决 于 “人 的 参 
与 ”。 在 本 章 中 ， 我 们 将 讨论 语义 Web 技术 以 及 WS 如 何 利 用 这 些 技术 ,使 其 具有 语义 
功能 。 在 这 里 ， 如 果 一 个 云 利 用 了 语义 Web 技术 ， 我 们 就 定义 为 语义 云 。 稍 后 在 本 书 
中 ， 我 们 讨论 基于 语义 云 的 几 个 实验 系统 。 

WWW 之 父 Tim Berners Lee 意识 到 当前 网 络 技术 的 不 足 之 处 ， 并 努力 使 网 络 更 加 智 
能 化 。 他 的 目标 是 建立 一 个 网 络 ， 根 本 上 缓解 人 类 必须 整合 不 同 信 息 来 源 ， 并 进行 广泛 
搜索 的 负担 。 他 得 出 的 结论 是 ， 需 要 机 器 可 理解 的 网 页 ， 和 使 用 本 体 进 行 信息 集成 。 这 
导致 了 语义 Web ( 见 本 章 参 考 文献 [LEE01]) 的 概念 的 产生 。 利 用 语义 Web 技术 的 
WS 是 语义 Web 服务 。 

语义 网 可 以 被 认为 是 一 个 高 度 智能 和 复杂 的 网 络 ， 因 此 很 少 或 根本 不 需要 人 力 干 
预 ， 来 执行 任务 ， 比 如 调度 任命 、 协 调 活 动 、 搜 索 复 杂 的 文档 以 及 整合 不 同 的 数据 库 和 
信息 系统 等 。 虽 然 在 开发 这 样 一 个 智能 网 络 方面 取得 了 很 大 进展 ,但 仍 有 很 多 工作 要 
做 。 例 如 ， 本 体 匹 配 、 智 能 代理 和 标记 语言 等 技术 正在 为 开发 语义 Web 做 出 了 很 大 的 
贡献 。 但 目前 的 语义 Web 仍然 需要 人 类 做 出 决定 并 采取 行动 。 

最 近 在 语义 Web 上 取得 了 很 多 进展 。W3C 规定 了 语义 Web ( 见 本 章 参 考 文献 
[W3C]) 的 标准 。 这 些 标准 包括 XML、RDF 和 互 操作 性 的 规范 。 当 然 ， 语 义 Web WH 
全 也 是 非常 重要 的 。 也 就 是 说 ， 构 成 语义 网 的 组 件 必须 是 安全 的 ， 这 些 组 件 包 括 XML, 
RDF 和 本 体 。 另 外 ， 我 们 需要 安全 的 信息 集成 ， 还 需要 检查 语义 Web 的 信任 问题 。 因 
此 ， 一 个 重要 的 工作 就 是 开发 安全 的 语义 WEB 标准 ， 包 括 安全 XML、 安 全 的 RDF ME 
全 的 互 操作 性 规范 (请 参见 本 章 参考 文献 [THUR05 ] ) 。 在 本 章 中 ， 我 们 将 讨论 语义 
Web 的 各 种 组 件 和 语义 Web 服务 。 
虽然 代理 对 管理 数据 和 语义 Web 上 的 活动 至 关 重 要 ， 但 一 般 而 言 ， 有 些 人 不 将 代 
理 视 为 语义 Web 技术 的 一 部 分 ， 而 另 一 些 则 将 代理 视 为 语义 Web 的 一 部 分 。 由 于 代理 
的 主体 很 广泛 ， 也 花 了 许多 努力 在 开发 代理 和 安全 代理 上 ， 所 以 我 们 不 将 代理 作为 本 书 
的 一 部 分 进行 论述 。 但 是 我 们 还 会 在 本 书 中 提 到 代理 ， 因 为 这 些 代 理 能 使 用 XML 和 
RDF， 并 且 理 解数 据 和 Web 页 面 。 代 理 代表 用 户 行事 ,代理 能 使 用 明确 的 协议 相互 通 
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言 。 根 据 执行 任务 的 不 同 ， 可 以 开发 出 各 种 类 型 的 代理 ， 包 括 移 动 代理 、 智 能 代理 、 搜 
索 代理 和 知识 管理 代理 。 代 理 调用 WS 来 执行 操作 。 有 关 代 理 的 详细 信息 ， 请 参阅 本 章 
参考 文献 [ HEND01 ] 。 

随 着 对 数据 和 信息 管理 需求 的 增加 ， 还 需要 维护 数据 库 、 应 用 程序 和 信息 系统 的 安 
全 性 。 必 须 保 护 数据 和 信息 ， 免 受 未 经 授权 的 访问 以 及 恶意 的 损坏 。 随 着 网 络 的 普及 ， 
保护 数据 和 信息 变 得 更 加 重要 ， 因 为 现在 许多 人 可 以 访问 这 些 数据 和 信息 。 因 此 ， 我 们 
需要 有 效 的 机 制 来 保护 语义 Web 技术 。 特 别 是 ， 我 们 需要 保护 XML 和 RDF 文档 以 及 其 
他 组 件 ， 如 安全 本 体 和 安全 Web 规则 。 

本 章 的 内 容 如 下 。 在 6.2 节 中 , 我们 将 提 
供 语义 Web 技术 的 概述 。 其 中 我 们 将 讨论 由 
Tim Berners Lee 所 指定 的 语义 Web 的 分 层 架 构 ， 
如 XML、RDF、 本 体 以 及 Web 规则 和 语义 Web 
服务 等 。6.3 节 讨 论语 义 Web 技术 的 安全 性 。 













































































本 章 总 结 在 6.4 节 。 图 6.1 说 明了 本 章 讨论 的 相 | FOS | 
关 概 念 。 大 量 关于 语义 Web 的 讨论 是 从 

UR. y H n 
Antoniou 和 van Harmelen 所 著 的 一 书 中 ( 见 参 考 图 6.1 语义 Web 服务 与 安全 





文献 [ANTO08]) 总 结 过 来 的 。 关 于 最 新 的 规范 ， 请 参考 本 章 参 考 文献 [W3C], 


6.2 语义 Web 


6.2.1 分 层 技术 栈 


6.2 为 语义 Web 技术 栈 ， 这 是 Tim Berners Lee 开发 的 架构 。 本 质 上 ， 语 义 Web 
由 各 层 构 成 ， 层 均 利用 了 下 一 层 的 技术 。 最 低层 是 协议 层 ， 它 通常 不 包括 在 语义 技 
术 的 讨论 中 。 上 一 层 是 XML 层 。XML 是 文档 
表示 语言 ， 将 在 6.2. 2 节 中 讨论 。 虽 然 XML 
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规定 语法 是 足够 的 ， 但 是 比如 “文档 D 的 创 AWER 
建 者 是 John” 这 样 的 语义 很 难 在 XML 中 规范 资源 描述 框架 (RDF)、 本 体 
说 明 。 因 此 ，W3C 开发 了 使 用 XML 语法 的 XxML、XML 模 式 

















RDF， 我 们 在 6.2. 3 节 描 述 RDF。 

然后 ,语义 Web 社区 进一步 出 现 ， 并 引 
出 了 基于 语言 (例如 OWL) 的 本 体 规范 。 需 图 6.2 语义 Web FEAR 
要 说 明 的 是 ，OWL 解决 了 RDF 的 不 足 之 处 。 
我 们 在 6.2.4 节 讨 论 OWL。 为 了 制定 出 各 种 策略 ,语义 Web 社区 提出 了 一 种 Web 规则 
语言 ， 如 语义 Web 规则 语言 (Semantic Web Rules Language, SWRL) 和 规则 标记 语言 
( Rules Markup Language, Rules ML), 6.2.5 节 中 讨论 规则 ， 第 6. 2.6 节 讨 论语 义 Web 
服务 。 
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6.2.2 XML 








由 于 HTML 的 限制 和 标准 通用 标记 语言 (Standard Generalized Markup Language, 
SGML) 的 复杂 性 ，XML 显得 更 加 需要 。 它 是 由 W3C 指定 的 可 扩展 标记 语言 ， 旨 在 使 
Internet 上 的 结构 化 文档 交换 更 加 容易 。XML 的 一 个 重要 方面 是 用 于 文档 类 型 定义 
(Document Type Definition ，DTD) ， 从 而 定义 正式 模型 中 每 个 元 素 的 作用 。XML 模式 现 
在 已 经 成 为 规范 体系 结构 的 关键 。XML 模式 也 是 XML 文档 。 本 节 将 讨论 XML 的 各 种 组 
YE, 包括 :; 语句 、 元 素 、 属 性 和 架构 。XML 的 组 件 如 图 6. 3 所 示 。 


XML 的 
组 件 





















































XML 
XML m XML XPath 
元 素 和 属性 || SORT, | 命名 空间 || 表达 式 





图 6.3 XML 的 组 件 


6.2.2.1 XML 语句 和 元 素 
以 下 是 一 个 XML 语句 的 例子 ， 它 描述 了 一 个 事实 “John Smith 是 得 克 萨 斯 州 ( Texas) 
的 一 名 教授 ”， 元 素 是 name 和 state, XML 语句 如 下 : 


«Professor» 






































«name» John Smith </name> 
«state» Texas «/state» 
</Professor> 


6.2.2.2 XML 属性 
假设 我 们 要 说 明 有 一 个 教授 ， 名 叫 John Smith， 他 的 薪资 6 万 美元 。 我 们 可 以 使 用 
元 素 或 属性 来 说 明 。 下 面 的 示例 显示 了 属性 Name 和 Salary 的 使 用 。 


«Professor 
Name = "John Smith", Access=All, Read 
Salary = "60K" 
</Professor> 


6.2.2.3 XML DTD 

DTD 本 质 上 说 明了 XML 文档 的 结构 。 对 于 具有 Name 和 State 元 素 的 教授 ， 请 考虑 
以 下 DTD。 这 将 被 编码 为 

<!ELEMENT Professor Officer (Name, State)» 

<!ELEMENT name (#PCDATA)> 


<!ELEMENT state (#PCDATA)> 
<!ELEMENT access (#PCDATA) .> 


6.2.2.4 XML 模式 
虽然 DTD 早期 尝试 为 XML 文档 制定 结构 ， 但 是 XML 模式 本 身 更 加 适合 用 于 说 明 
结构 。 与 DTD 不 同 ，XML 模式 基本 上 使 用 XML 语法 进行 说 明 。 请 考虑 以 下 示例 : 












































87 


| 云 计算 开发 与 安全 


6. 2. 


6. 2. 


6. 2. 


«ComplexType = name = "ProfessorType"» 
«Sequence» 


«element name- "name" type- "string"/» 
«element name = "state" type= "string"/» 


«Sequence» 
«/ComplexType» 


2.5 XML 命名 空间 


命名 空间 用 于 消除 收 义 。 下 面 给 出 了 一 个 例子 。 


<CountryX: Academic-Institution 


Xmlns: CountryX=http://www.CountryX.edu/Institution DTD” 
Xmlns: USA= “http://www.USA.edu/Institution DTD" 
Xmlns: UK= "http://www.UK.edu/Institution DTD" 


«USA: Title=College 


USA: Name- "University of Texas at Dallas" 


USA: State= "Texas" 
«UK: Title=University 


UK: Name = "Cambridge University" 


UK: State = Cambs 
«/CountryX: Academic-Institution» 


2.6 XML 联合 /分 开 


XML 数据 可 以 被 分 开 ， 并 且 数 据 库 可 以 形成 联合 。 这 将 在 下 面 的 段落 中 说 明 。 





Site 1 document: 
«Professor-name» 
«ID» 111 «/ID» 
«Name» John Smith «/name» 
«State» Texas </state> 
«/Professor-name» 


Site 2 document: 
«Professor-salary» 
«ID II1 «/ID- 
«salary» 60K </salary> 
«/Professor-salary» 


2.7 XML -QL, XQuery, XPath, XSLT 


XML - QL il XQuery 是 针对 XML 提出 的 查询 语言 ，XPath A 
可 以 使 用 XPath 表达 式 来 表示 XML 语句 中 的 特定 元 素 。 在 我 们 

















日 于 指定 查询 。 基 本 上 ， 
的 研究 中 ， 将 策略 规则 


指定 为 XPath 表达 式 (参见 本 章 参 考 文献 [BERTO4]), XSLT 用 于 呈现 XML 文档 。 其 


细节 在 本 章 参 考 文献 [W3C] 以 及 [ANTO08] 中 给 出 。 另 一 个 有 月 


参考 文献 [LAUROO], 


6. 2. 


X. 
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3 RDF 








例如 ， 使 用 XML， 很 难 指定 如 下 语句 : 
B 工程 师 是 员工 的 子 类 ; 











虽然 XML 是 指定 各 种 语句 中 语法 的 理想 选择 ,但 是 很 难 使 用 

















XML 





的 参考 文献 是 本 章 


HET) BTE 


图 工程 师 继 承 员工 的 所 有 属性 。 





请 注意 ， 上 述 语 句 指定 类 / 子 类 和 继承 关系 。RDF H 








> 
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于 得 XML 的 不 足 之 处 得 以 解决 。RDF 使 用 XML 语法 ， 也 需要 额外 的 构件 ， 我 们 对 
些 结构 进行 讨论 。 详 细 信 息 请 参见 本 章 参 考 文献 [ANTO08 ] 。 
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H Tim Berners Lee 及 其 团队 开发 ， 











Kp 





RDF 是 语义 Web 的 本 质 。 它 基于 XML 语法 ,使 用 本 体 对 各 种 语句 提供 语义 。RDF 
概念 包括 由 资源 、 属 性 和 语句 组 成 的 基本 模型 ， 以 及 由 单元 组 、 序 列 、 待 选 内 容 组 成 的 
容器 模型 。 我 们 将 讨论 一 些 基本 概念 。RDF 的 组 件 如 图 6. 4 所 示 。 









































RDF 的 组 件 
| RDF 语 句 基本 模型 m 型 RDF 架 构 








图 6.4 RDF 的 组 件 


6.2.3.1 RDF 基础 











RDF 基本 模型 由 资源 、 属 性 和 语句 组 成 。 在 RDF 中 ， 一 切 就 像 人 、 车 、 动 物 等 资 








源 。 属 性 描述 了 资源 之 间 的 关系 ， 像 “ 买 " “发明” 和 “了 吃 ” 等 








式 : (对 象 ,， 属性， 值 )。 语 句 例子 如 下 : 
Bl Berners Lee 发 明了 语义 Web; 
B Ton Iz 555; 
B Mary 市 来 了 一 件 衣 服 。 














图 6.5 说 明了 RDF 中 的 一 个 语 
句 。 在 这 里 ，Berners Lee 是 对 象 ， 





语义 Web 是 值 ， 而 发 明 是 属性 。 
6. 2.3.2 RDF 容器 模型 


RDF 容器 模型 由 单元 组 、 序 列 和 等 选 内 容 组 成 。 如 本 章 参 考 文 击 


述 ， 这 些 结构 在 RDF 中 指定 如 下 : 





Bag: 无 序 的 容器 ， 可 能 包含 多 个 事件 


e Rdf; Bag 
Seq: 有 序 容器 ， 可 能 包含 多 个 事件 
eRdf: Seq 
Ah; 一 组 待 选 内 容 
e Rdf; Alt 
6.2.3.3 RDF 规范 





如 本 章 参 考 文献 [ ANTOOS] 所 述 ，RDF 规范 已 经 给 出 了 所 





等 。 例 如 : Berners Lee 是 《语义 Web》 一 书 的 作者 。 
上 述 语句 说 明 如 下 ( 男 见 本 章 参 考 文献 [ ANTOOS]) : 


日 








发 明 


图 6.5 RDF 语句 


。 语 句 





AE 


个 三 元 组 形 











pan 


ox 
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«rdf: RDF 
xmlns: rdf-"http://w3c.org/1999/02-22-rdf-syntax-nst&" 
xmlns: xsd=“http://- - - 
xmlns: uni=“http://- - - - 
«rdf: Description: rdf: about = "949352" 
<uni: name=Berners Lee </uni:name> 
<uni: title> Professor <uni:title> 
«/rdf: Description» 
«rdf: Description rdf: about: "ZZzz" 
«uni: bookname> semantic web <uni:bookname> 
«uni: authoredby:Berners Lee <uni:authoredby> 
«/rdf: Description» 
«/rdf: RDF» 


6.2.3.4 RDF EX 

XML 模式 指定 了 XML 文档 的 结构 ， 可 以 被 认为 是 元 数据 ， 而 RDF 模式 指定 了 类 / 
子 类 之 间 的 关系 。 例 如 ， 我 们 需要 RDF 模式 来 指定 诸如 工程 师 是 员工 的 子 类 等 语句 。 
以 下 是 此 语句 的 RDF 规范 。 

«rdfs: Class rdf: ID- "engineer" 

«rdfs: comment» 

The class of Engineers 

All engineers are employees 

«rdfs: comment» 


«rdfs: subClassof rdf: resource = "employee" /> 
<rdfs: Class> 


6.2.3.5 RDF 公理 语义 学 

第 一 阶 逻 辑 用 于 指定 公式 和 推论 。 需 要 用 到 以 下 构件 : 

内 置 函数 (第 一 个 ) 和 谓词 (类 型 ) 

演绎 推理 : 从 A 和 如 果 A 那么 B， HES B 

以 下 示例 取 自 本 章 参 考 文献 [ ANTOOS ] : 

例子 : 

所 有 容器 都 是 资源 ， 那 就 是 如 果 X 是 一 个 容器 ， 那 么 X 就 是 一 个 资源 。 

类 型 (? c, Hak) 一 类 型 (? c, WIR) 

如 果 我 们 有 Type (A, RA), MARNIE HEW Type ( A， 资源 ) 
6.2.3.6 RDF 推断 法 

与 XML 不 同 ，RDF 具有 推理 能 力 。 虽 然 第 一 阶 逻 辑 提供 了 一 个 证 明 系 统 ， 但 是 使 
用 第 一 阶 逻 辑 来 开发 RDF 推理 系统 在 计算 上 将 是 不 可 行 的 。 因 此 ， 开 发 了 霍 恩 子 句 
(horn clause) 逻辑 ( 见 本 章 参考 文献 [LLOYS7]) 用 于 逻辑 编程 ， 但 是 计算 上 仍然 需 
要 很 高 代价 。 语 义 Web 基于 一 种 限制 逻辑 ， 这 种 逻辑 被 称 为 描述 性 逻辑 ， 其 细节 可 以 
在 本 章 参考 文献 [ANT008] 中 找到 。RDF 使 用 “如 果 那 么 ”规则 如 下 : 

如 果 玉 包含 三 元 组 (? u, rdfs: subClassof,? v) 和 (? v, rdfs; subClassof,? w) 

IKA ERS = 5044 (? u, rdfs; subClassof,? w) 

hitch, WR ue vA, vy 是 w 的 子 类 ， 则 u 是 w 的 子 类 。 
90 











































































































pe 383 0Web/R A jode () 

6.2.3.7 RDF 查询 

f& XML 查询 语言 (Al X- Query 和 XML -QL) 一 样 ， 适 合 于 RDF 的 查询 语言 也 正 
在 开发 中 。 虽 然 可 以 使 用 XML 查询 RDF， 但 是 这 是 非常 困难 的 ， 因 为 RDF HE XML 更 
丰富 。 于 是 ，RQL 被 开发 出 来 。RQL 是 为 RDF 开发 的 类 似 SQL 的 语言 。 它 的 形式 是 : 

Select from “RDF document" where some “condition. ” 
6.2.3.8 SPARQL 

W3C 的 RDF 数据 组 为 RDF 开发 了 一 种 称 为 SPARQL (Simple Protocol and RDF Query 
Language) 的 查询 语言 ， 现 在 它 正 在 成 为 查询 RDF 文档 的 标准 。 我 们 正在 为 云 计 算 开 发 
SPARQL 查询 处 理 算 法 。 另 外 ,还 开发 了 用 于 SPARQL 查询 的 优化 器 。 


6.2.4 本 体 


本 体 是 任何 实体 、 人 或 事物 的 通用 定义 。 本 体 被 用 来 阐明 各 种 术语 ， 因 此 对 于 机 器 
可 理解 的 网 页 至 关 重 要 。 我 们 已 经 定义 了 几 个 可 以 使 用 的 本 体 。 这 里 的 难题 是 如 何 定义 
一 个 实体 的 通用 本 体 ， 因 为 不 同 的 团体 可 能 会 出 现 不 同 的 定义 。 因 此 ， 我 们 需要 多 个 本 
体 的 映射 。 也 就 是 说 ， 这 些 映射 将 一 个 本 体 映射 到 另 一 个 本 体 。 我 们 已 经 为 本 体 开发 了 
专门 的 语言 。 请 注意 ， 类 似 XML， 所 开发 的 RDF， 并 不 完全 适合 指定 类 / 子 类 关系 等 语 
义 。 因 为 不 能 表达 几 种 其 他 属性 ， 如 并 集 和 交集 ，RDF 的 功能 也 是 有 限 的 。 因 此 ， 我 
们 需要 更 丰富 的 语言 。 本 体 语言 就 是 为 这 个 目的 由 语义 Web 社区 而 开发 。 

OWL (Web 本 体 语 言 ，Web Ontology Language) 是 一 种 流行 的 本 体 规范 语言 。 它 是 
本 体 的 语言 ， 依 赖 于 RDF, DARPA (国防 高 级 研究 计划 署 ，Defense Advanced Research 
Projects Agency) 开发 了 早期 语言 ，DAML (DARPA 代理 标记 语言 ，DARPA Agent Markup 
Language) 。 欧 洲 人 开发 了 OIL (本 体 接 口语 言 ，Ontology Interface Language), DAML + OIL 
结合 起 来 ， 是 OWL WE, OWL 由 W3C 开发 。0WL 是 基于 first - order 逻辑 (第 一 阶 
WH) 的 子 集 ， 是 一 种 描述 逻辑 。 

OWL 特征 包括 : 子 类 关系 、 类 成 员 身 份 资格 、 类 的 等 价 性 、 分 类 和 一 致 性 (例如 ， 
x 是 A 的 实例 ，A 是 B 的 子 类 ,x 不 是 B 的 实例 ) 。 

OWL 有 3 种 类 型 OWL - Full, OWL-DL, OWL - Lite。 管 理 本 体 的 自动 化 工具 称 
为 本 体 工程 。 

下 面 是 OWL 规范 的 一 个 例子 

教科 书 和 课本 是 一 样 的 

英文 书 不 是 法 文书 

英文 书 不 是 德 文书 

«owl: Class rdf: about = “#EnglishBook”> 

<owl: disjointWith rdf: resource “#FrenchBook” /> 

«owl: disjointWith rdf: resource = #GermanBook” /> 

</owl:Class> 

«owl: Class rdf: ID= "TextBook"» 


«owl: equivalentClass rdf: resource- "CourseBook"/» 
«/owl: Class» 
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下 面 是 OWL 属性 规范 

英语 书 被 学 生 阅 读 

«owl: ObjectProperty rdf: about = “#readBy”> 
«rdfs domain rdf: resource = “#EnglishBook” /> 
«rdfs: range rdf: resource =“#student” /> 

«rdfs: subPropertyOf rdf: resource =#involves” /> 

</owl: ObjectProperty> 

下 面 是 属性 限制 的 OWL 说 明 

所 有 的 法 语 书 仅 被 法 语 学 生 阅 读 

«owl: Class rdf: about "£"FrenchBook"» 

«rdfs: subClassOf» 
«owl: Restriction» 

«owl: onProperty rdf: resource = “#readBy”> 

«owl: allValuesFrom rdf: resource =#FrenchStudent” /> 

«/rdfs: subClassOf» 

«/owl: Class» 


6.2.5 Web 规则 和 SWRL 


















































6.2.5.1 Web 规则 

RDF 建立 在 XML Z E, OWL 建立 在 RDF 上 。 我 们 可 以 在 RDF 中 表达 子 类 关系 ， 
其 他 关系 可 以 用 OWL RR, RM, OWL 的 推理 能 力 仍然 有 限 。 因 此 ， 我 们 需要 指定 规 
则 和 规则 标记 语言 ， 以 便 机 器 可 以 理解 并 进行 推理 。 

以 下 是 本 章 参 考 文献 [ ANTOOS] 中 给 出 的 一 些 例子 。 

学 生 (X, Y), ÆW (X, Z), ， 地 点 (Y, U), ， 地 点 (Z, U) 一 国内 学 生 (X) 

也 就 是 说 ， 如 果 John Æ UTD 学 习 ， 住 在 坎贝尔 路 ， 坎 贝尔 路 和 UTD 的 位 置 是 理 查 
德 森 ， 那 么 John 是 国内 的 学 生 。 

需要 注意 的 是 ， 人 (X) 一 男人 (X) 或 女人 (X) 不 是 谓词 逻辑 中 的 规则 。 

如 果 X 是 一 个 人 , 那么 X 是 男人 或 女人 不 能 用 一 阶 谓词 逻辑 来 表达 。 因 此 ， 在 谓 
词 逻 辑 中 ， 我 们 表达 上 述 含义 ， 就 是 : 如 果 X 是 一 个 人 ， 而 X 不 是 一 个 男人 ,那么 X 
是 一 个 女人 人。 同样 如 果 X 是 一 个 人 ， 而 X 不 是 一 个 女人 ,那么 X 就 是 一 个 男人 。 也 就 
是 说 ， 在 谓词 逻辑 中 ， 我 们 可 以 具有 如 下 形式 的 规则 

人 (X) 和 非 男人 (X) 一 女人 (X). 

但 是 ,在 OWL 中 ， 我 们 可 以 制定 一 个 规则 : 如 果 X 是 一 个 人 ， 则 X 是 一 个 男人 或 
X 是 一 个 女人 。 

规则 可 以 是 单调 的 或 非 单调 的 。 

以 下 是 一 个 单调 规则 的 例子 : 

一 母亲 (X, Y) 

母亲 (X,Y) 一 父母 (X, Y) 

如 果 Mary 是 John 的 母亲 ， 那 么 Mary 是 John 的 父母， 

他 的 形式 是 : BI, B2, ..., Bn—A 
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也 就 是 说 ， 如 果 Bl, B2, ..., Bn 成 立 ， 则 A 成 立 

在 非 单调 推理 的 情况 下 ， 如 果 我 们 有 X 和 NOT X, 我们 将 它们 视 为 一 致 的 单调 推 
理 。 例 如 ， 如 本 章 参 考 文献 [ANTO08] 中 所 讨论 的 ， 考 虑 John 可 以 接受 的 公寓 的 例 
子 。 一 般 来 说 ，John 准备 租 一 套 公 寓 ， 除 非 公寓 不 到 两 间 卧 室 和 不 允许 养 宠 物 。 这 可 以 
表示 如 下 : 

B 一 可 接受 (X) 

B EE (X, Y), Y <2 一 不 可 接受 (X) 

图 不 允许 养 宠物 (X) 一 不 可 接受 (X) 

第 一 条 规定 ， 公 寓 一 般 是 John 可 接受 的 。 第 二 条 规定 ， 如 果 公 寓 有 不 到 两 间 卧 室 ， 
那么 John 是 不 能 接受 的 。 第 三 条 规定 ， 如 果 不 允 许 养 宠物 ， 那 么 John 是 不 能 接受 的 。 
请 注意 ， 这 可 能 会 有 矛盾 。 但 是 ， 通 过 非 单调 推理 ， 这 是 允许 的 ， 而 这 在 单调 推理 中 是 
不 允许 的 。 

我 们 需要 规则 标记 语言 让 机 器 理解 规则 。 逻 辑 的 各 种 组 件 由 被 称 为 RuleML 的 规则 
标记 语言 进行 表示 ，RuleML 是 专门 为 语义 Web 开发 的 。 单 调和 非 单调 规则 都 可 以 用 
RuleML 表示 。 

例如 ， 事 实 上 的 父母 (A) 的 表述 是 “A 是 父母 "， 其 RuleML 表示 如 下 : 

«fact» 

«atom» 
<predicate>Parent</predicate> 
<term> 
<const>A</const> 
</term> 


</atom> 
</fact> 


6.2.5.2 SWRL 

W3C 提出 了 一 种 集成 OWL 和 Web 规则 的 新 规则 语言 ， 这 就 是 SWRL。SWRL 的 作 
者 们 指出 ，SWRL 对 OWL 公理 集合 进行 了 扩展 ， 包 括 了 Hom - like 的 规则 。 这 样 的 话 ， 
Horn - like 的 规则 就 可 以 与 OWL 知识 库 相 结 合 。 这 样 的 
语言 将 具有 OWL 的 表达 能 力 和 逻辑 编程 的 推理 能 力 。| 。 E se 
我 们 在 图 6.6 中 说 明了 SWRL 的 组 件 。 记 语 言 


SWRL 的 作者 (Horrocks 等 人 ) 也 指出 ， 建议 的 规 
则 以 隐 含 的 形式 存在 前 项 ( body ) 和 后 项 ( head) 之 



















































































































































































间 。 可 以 看 出 其 中 的 含义 是 : 无 论 任 何 时 候 ， 如 果 前 项 

中 指定 了 相应 的 限定 条 件 ， 则 后 项 中 的 限定 条 件 也 必须 SWRL 
与 之 相同 。 针 对 这 些 规则 ， 还 给 出 了 一 套 XML 语法 ， 

当然 这 些 语法 也 是 基于 RuleML 和 OWL XML 表达 语法 。 图 6.6 SWRL 组 件 





此 外 ， 我 们 还 介绍 了 基于 OWL RDF / XML 交换 语法 的 
RDF 具体 语法 。 规 则 语法 用 几 个 运行 示例 说 明 。 最 后 ， 我 们 给 出 使 用 建议 和 注意 事项 。 
以 下 是 我 们 从 SWRL ( 见 本 章 参 考 文献 [SWRL]) 的 W3C 规范 中 获取 的 SWRL 示 
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例 。 它 指出 ， 如 果 xl Æ x2 WEAF, x3 是 x2 的 兄弟 ， 那 么 x3 是 xl WA, Ka 
了 XML 语法。 有 关 SWRL 的 更 多 详细 信息 ， 请 读者 参考 W3C 规范 [SWRL], 
«ruleml:imp» 
«ruleml: rlab ruleml:href = "£examplel"/» 
«ruleml: body» 
<swrlx:individualPropertyAtom swrlx:property-"hasParent"» 

«ruleml:var»xl«/ruleml:var» 

«ruleml:var»x2«/ruleml:var» 
«/swrlx:individualPropertyAtom» 
«swrlx:individualPropertyAtom swrlx:property-"hasBrother"» 

«ruleml:var»x2«/ruleml:var» 

«ruleml:var»x3«/ruleml:var» 
«/swrlx:individualPropertyAtom» 

«/ruleml: body» 
«ruleml: head» 
«swrlx:individualPropertyAtom swrlx:property-"hasUncle"-» 

«ruleml:var»xl«/ruleml:var» 

«ruleml:var»x3«/ruleml:var-» 
«/swrlx:individualPropertyAtom» 

«/ruleml: head» 
«/ruleml:imp» 


6.2.6 语义 Web 服务 


语义 Web 服务 利用 语义 Web 技术 。 正 如 我 们 在 第 5 章 中 所 述 ，WS 使 用 基于 XML 
的 WSDL 和 SOAP 消息 。 和 凭借 语义 Web 技术 ， 可 以 利用 RDF 在 消息 以 及 WS 描述 语言 
表达 语义 。 本 体 可 以 用 来 处 理 异 质 性 。 例 如 ， 如 果 消 息 或 服务 描述 中 的 单词 是 模棱两可 
的 ， 那么 本 体 可 以 解决 这 些 歧义 。 最 后 ， 规 则 语言 (例如 SWRL)， 可 以 用 于 消息 的 推 
理 能 力 以 及 服务 描述 。 

如 本 章 参考 文献 [SWS] 所 述 ， 用 于 WS 互 操作 的 主流 XML 标准 ， 仅 仅 规定 语法 
互 操作 性 ， 而 不 是 消息 语义 上 的 含义 。 例 如 ， 通 过 Web 服务 来 发 送 和 接收 的 数据 结构 ， 
WSDL 可 以 指定 可 用 的 操作 ， 但 它 不 能 指定 数据 的 语义 含义 或 数据 上 的 语义 约束 。 如 果 
需要 说 明 语义 含义 ， 就 要 求 程序 员 要 达成 关于 WS 交互 
的 特定 协议 ， 并 使 自动 Web 服务 组 合 变 得 困难 。 语义 Web 服 务 

语义 Web 服务 是 围绕 语义 Web 标准 构建 的 ， 用 于 
交换 语义 数据 ， 这 使 得 编程 人 员 可 以 轻松 地 将 来 自 不 
同 来 源 和 服务 的 数据 组 合 在 一 起 ， 而 不 会 失去 意义 。 
当 Web 浏览 器 向 Web 服务 器 发 出 请 求 时 ，WS 可 以 被 服务 技术 语义 Web 技 术 
秘密 激活 ， 然 后 Web 服务 器 使 用 各 种 WS 来 构建 比 本 
身 能 够 做 出 更 复杂 的 回复 。 语 义 Web 服务 也 可 以 被 自 图 6.7 语义 Web 服务 
动 化 程序 使 用 和 运行 ， 而 无 需 连 接 到 Web 浏览 

稍 后 在 本 书 中 ， 我 们 将 讨论 如 何 将 语义 Web 、 安 全 性 和 WS 集成 到 语义 Web 服务 
中 。 图 6.7 说 明了 语义 Web 服务 的 各 种 组 件 。 
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6.3 安全 的 语义 Web 服务 


6.3.1 语义 Web 的 安全 性 


首先 ， 我们 概述 语义 Web 的 安全 问题 ， 然 后 讨论 XML 安全 性 、RDF 安全 性 和 安全 
言 息 集成 的 一 些 细 节 ， 这 些 都 是 有 关 安 全 语义 Web 的 组 件 。 随 着 对 各 种 问题 研究 的 进 
一 步 发 展 ， 我 们 希望 为 确保 语义 网 络 安全 
开发 适当 的 标准 。 安 全 性 不 能 单独 考虑 ， 关于 安全 性 的 逻辑 、 证 据 和 可 信 
也 就 是 说 ， 没 有 一 个 层面 应 该 集中 关注 安 
































人 
全 性 。 安 全 性 需 跨越 所 有 层次 ， 这 是 一 个 规则 /查询 安 
挑战 。 总 而 言 之 ， 我 们 需要 每 个 层 都 具有 RDF、 本 体 的 安全 性 
安全 性 ， 如 图 6. 8 所 示 。 Te 














例如 ， 考虑 最 低层 。 这 一 层 需 要 安全 
的 TCP / IP、 安全 的 套 接 字 和 安全 的 HT- 
TP。 现 在 已 经 存在 为 各 种 低层 协议 开发 的 图 6.8 安全 语义 Web 层次 
安全 协议 。 用 户 需 要 端 到 端的 安全 性 。 也 就 是 说 ， 不 能 仅仅 将 安全 的 TCP/IP 建立 在 不 
可 信和 的 通信 层 上 ， 我们 也 需要 网 络 安 全 。 上 一 层 是 XML 和 XML 架构 。 一 个 需要 安全 的 
XML。 也 就 是 说 ， 为 了 方便 阅读 、 浏 览 和 修改 ， 访 问 必须 被 控制 到 文档 的 各 个 部 分 。 有 
学 者 在 从 事 XML 和 XML 架构 的 安全 研究 。 下 一 步 是 确保 RDF 安全 。 现 在 ，RDF 不 仅 
需要 安全 的 XML， 还 需要 安全 解释 和 语义 。 例 如 ， 在 某 些 上 下 文中 ,文档 的 某 些 部 分 
可 能 是 非 保密 的 ， 而 在 某 些 其 他 上 下 文中 ,文档 可 能 是 保密 的 。 

一 旦 XML 和 RDF 得 到 安全 保护 ， 下 一 步 是 检查 本 体 和 互 操作 的 安全 性 。 也 就 是 
说 ， 本 体 可 能 具有 属于 它们 自己 的 安全 级 别 。 本 体 的 某 些 部 分 可 能 是 保密 的 ， 而 某 些 其 
他 部 分 可 能 是 非 保密 的 。 如 何 将 这 些 本 体 用 于 安全 的 信息 集成 是 一 项 挑战 。 研 究 人 员 对 
数据 库 的 安全 互 操作 性 已 经 展开 了 一 些 研 究 。 我 们 需要 重新 审视 这 项 研究 ， 然 后 确定 还 
需要 做 些 什 么 ， 以 便 可 以 安全 地 进行 管理 、 集 成 和 交换 网 络 上 的 信息 。 人 逻辑 、 证 据 和 可 
言 是 语义 Web 的 最 高 层 。 那 就 是 说 ， 我 们 如 何 才能 信任 网 络 给 我 们 的 信息 ? 

我 们 还 需要 检查 语义 Web 的 推理 问题 。 推 理 是 构成 查询 和 推导 新 信息 的 过 程 。 当 
推断 的 信息 是 用 户 未 经 授权 获取 的 时 ， 这 会 成 为 一 个 问题 。 使 用 语义 Web， 特 别 是 数据 
挖 据 工 具 ， 可 以 做 出 各 种 推论 。 最 近 有 一 些 关于 在 语义 Web 上 控制 未 经 授权 推论 的 研 
究 。 我 们 需要 继续 进行 这 样 的 研究 (参见 本 章 参考 文献 [FARK03] 和 [THUR06] ) 。 

安全 不 应 该 在 事后 才 想到 。 我 们 经 常 听 说 ， 从 一 开始 就 需要 把 安全 性 植 人 到 系统 。 类 
似 地 ， 安 全 性 不 能 是 对 语义 Web 的 事后 考虑 。 有 时 我 们 在 必须 始终 保证 10096 的 安全 性 的 
同时 ， 也 不 能 使 系统 效率 低下 。 更 多 的 时 候 我 们 需要 的 是 一 个 灵活 的 安全 策略 。 在 某 些 情 
况 下 ， 我 们 可 能 需要 100% 的 安全 性 ， 而 在 某 些 其 他 情况 下 ，30% 的 安全 性 可 能 就 足够 了 。 





URI、UNICODE 的 安全 性 
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6.3.2 XML 安全 性 


有 关 XML 安全 性 的 各 种 研究 工作 已 经 有 所 报告 ( 见 本 章 参考 文献 [BERT02 ] ) 。 
我 们 这 里 简要 讨论 一 些 关 键 点 。 主 要 的 挑战 有 是 否 允 许 访问 整个 XML 文档 还 是 部 分 文 
档 。Bertino 等 人 已 经 开发 了 XML 的 授权 模型 ， 主 要 集中 在 访问 控制 策略 以 及 发 布 策略 。 
他 们 还 考虑 了 推 和 拉 的 架构 ， 也 指定 了 XML 中 的 策略 。 策 略 规范 包含 有 关 哪 些 用户 可 
以 访问 哪些 文档 部 分 的 信息 。 在 本 章 参考 文献 [BERTO] 中 ， 介 绍 了 访问 控制 算法 以 
及 结果 的 计算 观点 。 此 外 ， 还 讨论 了 用 于 保护 XML 文档 的 架构 。 在 本 章 参 考 文献 
[BERTO4] 中 ， 作 者 进一步 介绍 了 如 何在 网 络 上 发 布 XML 文档 。 这 么 做 ， 主 要 是 为 了 
拥有 者 发 布 文档 ， 为 了 主体 去 请 求 访 问 这 些 文档 ， 以 及 为 不 受信 任 的 发 布 商 在 主体 面前 
展现 出 被 授权 查看 文档 的 假象 。 

W3C 正在 制定 XML 安全 性 的 标准 。XML 安全 项 目 (参见 本 章 参 考 文献 [XML ] ) 
目前 正 着 重 实现 XML 安全 标准 。 其 重点 是 XML 签名 的 语法 和 人 处理 、XML 加 密 的 语法 和 
处 理 以 及 XML 密 钥 管理 。W3C 还 有 许多 工作 组 ， 包 括 XML 签名 工作 组 ( 见 本 章 参 考 文 
献 [XML2]) 和 XML 加 密 工作 组 ( 见 本 章 参 考 文献 【XML3 ] ) 。 虽 然 我 们 正在 关注 其 
中 近期 可 实施 的 标准 内 容 ， 但 是 在 保护 XML 文档 方面 还 需要 进行 大 量 研究 。 


6.3.3 RDF 安全 性 


RDF 是 语义 Web 的 基础 。 虽 然 XML 在 提供 机 咒 可 理解 的 文档 方面 受到 限制 ， 但 
RDF 可 解决 此 问题 。 因 此 ，RDF 为 互 操作 性 以 及 搜索 和 编目 提供 了 更 好 的 支持 。 它 还 
描述 了 文档 的 内 容 以 及 文档 中 各 实体 之 间 的 关系 。 虽然 XML 仅 提供 语法 和 符号 ， 但 
RDF 通过 以 标准 化 的 方式 提供 语义 信息 来 补充 这 一 点 。 

基本 的 RDF 模型 有 3 个 组 件 : 资源 、 属 性 和 语句 。 资 源 是 由 RDF 表达 式 描 述 的 。 
它 可 以 是 一 个 网 页 或 一 组 页 面 。 属 性 是 用 于 描述 资源 的 特定 性 质 。RDF 语句 是 资源 与 
一 个 命名 属性 加 上 属性 的 值 。 语 句 组 件 是 主体 、 谓 词 和 客体 。 例 如 ， 如 果 我 们 有 一 个 形 
DON “xxx 的 创建 者 是 John” 的 句子 ,那么 xxx 是 主体 或 资源 ， 属 性 或 谓词 是 “创建 
者 ”， 客 体 就 是 文字 “John”。 类 似 ER 图 或 对 象 图 ，RDF 图 可 以 用 来 表示 语句 。 重 点 是 
将 预期 的 解释 用 于 RDF 语句 ， 这 是 由 RDF 规范 完成 的 。 规 范 是 一 种 字典 ， 并 且 具 有 对 
语句 中 使 用 的 各 种 术语 解释 的 作用 。 

RDF 中 更 高 级 的 概念 包括 容器 模型 和 关于 语句 的 声明 。 容 器 模型 有 3 种 类 型 的 容器 对 
象 ， 它 们 是 单元 组 、 序 列 和 竺 选 内 容 。 一 个 单元 组 是 无 序 的 资源 或 文字 列表 。 它 用 来 表示 
一 个 属性 具有 多 个 值 ， 但 顺序 不 重要 。 序 列 是 有 序 资 源 的 列表 ， 这 里 的 顺序 很 重要 。 待 选 
内 容 是 表示 属性 值 的 可 选择 的 资源 列表 。 关 于 RDF 的 各 种 教程 更 详细 地 描述 了 容器 的 
语法 。 

RDF 还 提供 对 其 他 语句 声明 的 支持 。 利 用 这 个 功能 ， 可 以 完成 例如 “语句 A 为 假 ” 
的 形式 语句 ， 其 中 A 是 语句 “John 是 X 的 创建 者 ”。 同 样 ， 可 以 使 用 对 象 类 图 来 表示 容器 
和 关于 语句 的 声明 。RDF 也 有 一 个 与 之 相关 联 的 正规 模型 ， 它 有 一 个 正规 的 语法 。 有 关 
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RDF 的 更 多 信息 ， 可 以 参考 Antoniou 和 van Harmelen 的 书 中 的 精美 论述 [ANTO08 ]。 
现在 要 使 语义 Web 安全 ， 需 要 确保 RDF 文档 是 安全 的 。 这 将 涉及 从 语法 角度 来 确 
保 XML 安全 。 然 而 ， 对 于 RDF， 我 们 还 需要 确保 在 语义 层面 的 安全 性 ， 包 括 概念 资源 、 
属性 和 语句 的 安全 隐患 。 如 何 保证 访问 控制 ? 关于 语句 的 声明 和 属性 如 何 被 保护 ?如何 
以 粒度 提供 访问 控制 ? 容器 模型 的 安全 属性 是 什么 ?” 如何 保护 单元 组 、 序 列 和 待 选 内 
ft? 我 们 可 以 在 RDF 中 指定 安全 策略 吗 ? 我 们 如 何 解 决策 略 的 语义 不 一 致 问题 ? 我 们 
如 何在 RDF 中 表达 安全 约束 ? 陈述 语句 的 安全 隐患 是 什么 ? 我 们 如 何 保护 RDF 架构 ? 
这 些 都 是 难题 ， 我 们 需要 开始 研究 来 寻找 答案 。XML 安全 只 是 一 个 开始 ， 保 护 RDF 更 
具 挑 战 性 (参见 本 章 参考 文献 【CARM04] ) 。 


6.3.4 安全 性 和 本 体 


本 体 是 为 了 避免 歧义 ， 对 各 种 概念 的 本 质 性 表示 。 我 们 已 经 开发 了 许多 本 体 ， 这 些 
本 体 已 经 被 代理 使 用 来 理解 网 页 并 进行 数据 库 的 集成 等 操作 。 此 外 ， 本 体 可 以 用 RDF 
或 OWL 等 专用 语言 来 表示 。 

现在 ， 我 们 必须 保证 本 体 安全 ， 就 必须 控制 对 本 体 的 访问 。 这 意味 着 不 同 的 用 户 可 
能 访问 本 体 的 不 同 部 分 。 另 一 方面 ， 本 体 可 以 用 于 指定 安全 策略 ， 就 像 XML 和 RDF 已 
被 用 于 指定 策略 一 样 。 我 们 将 描述 如 何 保护 本 体 ， 以 及 如 何 使 用 本 体 来 指定 各 种 策略 。 


6.3.5 安全 查询 和 规则 处 理 


在 Secure RDF 层 之 上 是 安全 查询 和 规则 处 理 层 。 虽 然 RDF 可 以 用 于 指定 安全 策略 
(参见 本 章 参 考 文献 【CARM04]) ， 但 W3C 正在 开发 的 Web 规则 语言 对 于 指定 复杂 策 
略 而 言 更 为 强大 。 此 外 ， 有 学 者 正在 开发 推理 机 来 对 规则 进行 处 理 和 推理 〈 例 如 ， 在 
马里 兰 大 学 开发 的 Pellet 推理 机 ) 。 同 样 ， 也 可 以 将 我 们 开发 的 数据 库 推 理 控制 器 的 想 
法 (参见 本 章 参 考 文献 [THUR93] ) 与 Web 规则 处 理 相 结合 ， 以 开发 语义 Web 的 推理 
或 隐私 控制 器 。 
查询 处 理 模块 负责 访问 语义 Web 上 的 异 构 数 据 和 信息 源 。 研 究 人 员 正 在 研究 将 
Web 查询 处 理 技术 与 语义 Web 技术 相 结 合 的 方法 ， 以 定位 、 查 询 和 集成 异 构 数 据 和 信 
息 源 。 男 外 ,我们 需要 检查 查询 处 理 的 安全 性 。 


6.3.6 语义 Web 的 隐私 和 信任 


隐私 是 个 人 的 相关 需要 保护 的 信息 。 男 外 ,个 人 可 向 Web 服务 商 指 定 具体 关于 他 
或 她 的 可 被 公开 的 信息 。 特 别 是 当 涉 及 保护 患者 的 医疗 信息 时 ， 这 样 的 隐私 问题 已 经 被 
大 量 讨论 了 。 社 会 科学 家 和 技术 专家 一 直 致 力 于 隐私 问题 研究 。 然 而 ， 过 去 一 年 里 ， 隐 
私 受 到 了 极 大 的 关注 。 这 主要 是 因为 Web 和 语义 Web AY HBL, LAB Be eh A FI Be ee N 
题 。 例 如 ， 为 了 提取 关于 各 种 人 的 信息 ， 并 且 可 能 防止 和 /或 侦 测 潜在 的 恐怖 袭击 ， 因 
此 数据 挖掘 工 具 都 要 接受 审查 。 我 们 在 媒体 上 也 听 过 很 多 关于 国家 安全 与 隐私 的 讨论 。 
这 主要 是 因为 人 们 现在 意识 到 要 处 理 铠 怖 主义 ,政府 可 能 需要 收集 有 关 个 人 的 数据 ， 并 
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挖掘 数据 来 提取 信息 。 数 据 可 能 在 关系 数据 库 中 ， 也 可 能 是 文本 、 视 频 和 图 像 。 这 些 工 
作 正 在 引起 各 种 公民 自由 工会 的 重大 关切 ( 见 本 章 参考 文献 [THUR02 ] ) 与 隐私 密切 
相关 的 是 匿名 ， 有 人 认为 保持 匿名 更 重要 。 

通过 Web 和 语义 Web， 现 在 大 量 有 关 个 人 的 数据 可 以 在 几 秒 钟 内 获得 。 数 据 可 以 
是 结构 化 数据 ， 也 可 以 是 文本 、 图 像 、 视 频 和 音频 等 多 媒体 数据 。 信 息 可 以 通过 采集 或 
信息 检索 获得 。 数 据 挖掘 是 使 网 络 更 加 智能 的 重要 工具 。 也 就 是 说 ， 可 以 使 用 数据 挖 所 
来 挖掘 网 络 上 的 数据 ， 以 便 网 络 可 以 演化 成 语义 网 。 但 是 ， 这 也 意味 着 隐私 可 能 会 受到 
威胁 。 因 此 ， 需 要 对 语义 网 上 的 数据 库 和 数据 挖掘 工具 实施 隐私 控制 。 这 是 一 个 非常 困 
难 的 问题 。 总 之 ， 需 要 开发 技术 来 防止 用 户 从 网 络 或 网 络 服务 器 上 进行 挖掘 和 提取 信 
息 。 请 注意 ， 数 据 挖掘 是 对 分 析 人 员 至 关 重 要 的 技术 ， 因 为 可 以 提取 以 前 未 知 的 模式 。 
但 是 ， 我 们 不 希望 以 不 正确 的 方式 使 用 信息 。 例 如 ， 根 据 相 关 个 人 信息 ， 保 险 公 司 可 以 
拒绝 保险 或 贷款 机 构 可 以 拒绝 贷款 。 在 许多 情况 下 ， 这 些 否 认可 能 不 合理 。 因 此 ， 信 息 
提供 者 必须 谨慎 对 竺 他们 要 发 布 的 信息 。 此 外 ， 数 据 挖掘 研究 人 员 必 须 确保 隐私 方面 的 
问题 得 到 解决 。 
虽然 有 关 语 义 Web 中 隐私 问题 的 研究 工作 报道 很 少 ， 但 是 我 们 依然 在 朝 着 正确 的 
方向 发 展 。 随 着 这 一 领域 的 主动 性 研究 工作 的 开展 ， 我 们 可 以 期 待 会 有 相应 的 进展 。 但 
是 ， 我 们 还 要 考虑 社会 和 政治 方面 。 总 之 ， 技 术 专 家 、 社 会 学 家 、 策 略 专家 、 反 恐 专家 
和 法 律 专家 必须 共同 努力 ， 开 发 适宜 的 数据 控 掘 技术 以 确保 隐私 。 另 外 ， 还 迫切 需要 隐 
私 策略 和 标准 。 那 就 是 说 ， 当 技术 专家 开发 隐私 解决 方案 时 ， 我 们 需要 决策 者 与 标准 组 
织 合 作 ， 以 便 开 发 适当 的 隐私 标准 。W3C 在 PP (隐私 参数 项 目 平台 ，Platform for Pri- 
vacy Preferences) 方面 取得 了 良好 的 开端 。 

提供 解决 方案 来 加 强国 家 安全 ， 但 同时 要 确保 隐私 ， 这 是 一 个 挑战 。 现 在 各 种 实验 
室 都 正在 研究 具有 隐私 增强 /人 敏感 /保护 性 质 的 数据 挖掘 技术 (例如 ，IBM Almaden 的 
Agrawal, 康 奈 尔 大 学 的 Gehrke 和 普 渡 大 学 的 Clifton, 详 见 本 章 参 考 文献 [| AGRAOO ] 、 
[CLIF02] 、[ GEHR021]1)。 这 里 的 想法 是 继续 挖掘 ,但 同时 尽 可 能 确保 隐私 。 例 如 ， 
Clifton 提出 使 用 多 方 安全 策略 的 方法 进行 隐私 敏感 数据 挖掘 。 虽 然 有 一 些 进 展 ， 但 还 有 
很 长 的 路 要 走 。 部 分 有 用 的 参考 文献 在 本 章 参 考 文献 [ CLIF02] 中 提供 ( 男 见 本 章 参 
考 文献 [EVFIO2]), 

这 里 给 出 一 些 关 于 我 们 处 理 方法 的 细节 。 请 注意 ， 人 们 挖掘 数据 的 目的 是 提取 模式 
和 趋势 。 隐 私 约束 能 确定 哪些 模式 是 隐私 的 ， 以 及 在 多 大 程度 上 是 隐私 的 。 例 如 ， 假 设 
可 以 提取 名 称 和 保健 记录 。 如 果 我 们 有 隐私 约束 规定 姓名 和 医疗 保健 记录 是 隐私 的 ， 那 
么 这 些 信息 不 向 公众 发 布 。 如 果 信 息 是 半 隐 私 的 ,那么 它 将 被 发 布 给 有 需要 知道 的 人 。 
本 质 上 ， 我 们 讨论 的 推理 控制 器 方法 是 实现 一 定 程度 隐私 的 一 个 解决 方案 。 它 可 以 被 认 
为 是 一 种 对 隐私 敏感 的 数据 挖掘。 在 研究 中 ， 已 经 发 现 了 我 们 开发 的 推理 控制 需 方 法 中 
存在 许多 挑战 〈 参 见 本 章 参 考 文献 【THUR93 ] ) 。 处 理 隐 私 约束 时 必须 解决 挑战 ( 另 见 
本 章 参 考 文献 [THUR04] ) 。 图 6. 9 为 语义 Web 的 隐私 控制 器 。 如 图 6.9 所 示 ， 在 网 络 
上 有 数据 挖掘 工具 ， 用 来 挖 气 Web 数据 库 。 隐 私 控制 器 应 确保 数据 挖掘 要 基于 隐私 保 
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护 。 本 体 可 由 隐私 控制 器 使 用 。 例 如 ， 隐 私 结构 可 能 存在 本 体 规范 。 此 外 ， 可 以 扩展 
XML 以 包括 隐私 约束 。RDF 可 以 包含 隐私 语义 。 所 以 ， 我 们 还 需要 对 隐私 控制 本 体 的 
作用 进行 更 多 的 研究 。 












隐私 增强 的 语义 Web 接 口 


隐私 策略 ， 本 体 ， 规 则 
语义 Web 引 擎 


图 6.9 语义 Web 的 隐私 控制 器 
关于 隐私 保护 数据 挖掘 的 大 部 分 工作 都 侧重 于 关系 型 数据 。 我 们 需要 对 隐私 保护 语 
X. Web 的 数据 挖掘 进行 研究 ， 也 需 将 基于 隐私 保护 的 数据 挖掘 技术 与 语义 Web 数据 挖 
掘 技术 相 结 合 ， 以 获得 隐私 保护 语义 Web 的 数据 挖掘 解决 方案 。 
最 近 我 们 做 了 大 量 关于 信任 和 语义 Web 上 的 研究 工作 (参见 Finin 等 人 的 研究 ， 见 
本 章 参 考 文献 [ DENK03] ，[ KAGA03] ) 。 这 里 的 难题 包括 如 何 信任 网 络 上 的 信息 ? 如 
何 相信 来 源 ? 如 何在 不 同方 之 间 进 行 协商 并 签订 协约 ? 如 何 将 信任 管理 和 协商 的 结构 合 
并 到 XML 和 RDF 中 ? 信任 管理 的 语义 是 什么 ? 
人 研究 人 员 正 在 制定 信任 管理 协议 。 用 于 指定 信任 管理 结构 的 语言 及 关于 信任 管理 基 
础 的 研究 也 正在 开展 中 。 例 如 ， 如 果 A 信任 B 和 B 信任 C， 那 么 A 信任 C? 如 何 共 享 语 
义 Web 上 的 数据 和 信息 ， 并 保持 自治 性 。 信 任 管理 存在 很 多 要 解决 的 问题 ， 如 何 传递 
信任 ? 例如， 如 果 在 50% 的 时 间 里 A 信任 B，B 在 30% 的 时 间 里 信任 C， 那 么 你 为 A 信 
IE C 分 配 了 多 少 信 任 时 间 ? 您 如 何 将 信任 融入 语义 互 操作 性 ? 信任 和 协商 的 服务 原 语 
的 质量 又 是 什么 ? 也 就 是 说 ， 在 某 些 情 况 下 ， 可 能 需要 100% 的 信任 ， 而 在 某 些 其 他 情 
况 下 ，50% 的 信任 可 能 就 足够 了 ( 男 见 本章 参 考 文献 [YU03 ] ) 。 
而 正在 研究 的 另 一 个 主题 是 信任 传播 和 传播 特权 。 例 如 ， 如 果 你 向 A 授予 权限 ，A 可 
以 转移 到 B 什么 权限 ? 你 如 何 组 合 特权 ? 有 为 了 特权 组 合 而 服务 的 代数 和 微 积 分 吗 ? 在 
此 ， 仍 需要 进行 更 多 研究 。 语 义 Web 的 一 个 层面 是 逻辑 、 证 明和 信任 。 在 这 个 层面 上 ， 
从 根本 上 要 解决 不 同 代理 商 之 间 的 信任 管理 和 协商 ， 并 审查 信任 管理 的 基础 和 发 展 逻 辑 。 
6.3.7 安全 的 语义 Web 和 WS 
WS 与 语义 Web 的 集成 造就 了 语义 Web 服务 。 也 就 是 说 ， 相 对 于 WWW 来 说 的 WS 
就 是 相对 于 语义 Web 的 语义 Web 服务 。Tim Finin 和 他 的 团队 讨论 了 语义 Web 服务 架构 
( 见 本 章 参考 文献 [BURSO5]), 。 他 们 描述 了 WS 的 不 足 之 处 ， 并 论述 了 对 语义 Web 服 
务 的 需求 。 说 明了 目前 的 技术 允许 使 用 WS， 尤 其 当前 的 WS 支持 语法 信息 描述 以 及 对 
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服务 的 发 现 、 组 合 和 执行 的 语法 支持 。 他 们 认为 人 们 需要 语义 标记 的 内 容 和 服务 ， 因 此 
需要 开发 语义 Web 服务 。 然 后 ， 他 们 定义 了 一 种 称 为 语义 Web 服务 的 体系 结构 ， 该 体 
系 结构 由 一 组 体系 结构 和 协议 抽象 构成 ， 其 作为 语义 Web 服务 技术 的 基础 。 这 些 技术 
支持 如 下 功能 : 

B 动态 服务 发 现 ; 

E 服务 参与 ; 

Bl 服务 流程 制定 ， 社 区 支持 服务 ; 

B 服务 质量 。 

服务 发 现 是 客户 识别 候选 服务 的 过 程 。 协 调 者 将 服务 请 求 者 连接 到 提供 商 。 可 能 需 
要 本 体 来 指定 服务 。 服 务 合约 指定 了 请 求 者 和 提供 商 之 间 的 协议 。 因 此 ， 在 此 阶段 进行 
约定 协商 。 一 旦 服务 准备 好 启动 ， 服 务 发 布 阶 段 将 开始 。 如 本 章 参考 文献 [SHIB] 所 
述 ， 在 此 阶段 ， 请 求 者 确定 请 求 服务 所 需 的 信息 ， 和 对 服务 成 功 或 失败 的 相应 反应 。 这 
也 将 包括 解释 响应 和 进行 转换 ， 社 区 管理 服务 支持 认证 和 安全 管理 。 服 务 质 量 为 协商 提 
供 了 支持 ， 同 时 也 为 交付 数据 的 安全 性 和 及 时 性 做 出 权衡 。 

安全 性 贯穿 于 所 有 这 些 服 务 。 应 注意 到 社区 管理 服务 特别 要 求 认证 和 安全 管理 ， 需 
要 安全 服务 进行 服务 发 现 、 引 擎 分 段 和 发 布 。 例 如 ， 并 不 是 所 有 的 服务 都 可 以 被 发 现 。 
这 取决 于 服务 的 敏感 度 和 请 求 者 拥有 的 安全 赁 证。 因此， 必须 对 语义 Web 服务 描述 ， 
检查 XML, RDF 和 OWL 的 安全 性 规范 。 图 6. 10 为 安全 的 语义 Web 服务 的 构成 。 


安全 的 语义 Web 服 务 
安全 的 Web 安全 的 语义 
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图 6.10 安全 的 语义 Web 服务 


































































































6.4 总 结 和 展望 














本 章 首 先 提供 了 语义 Web 技术 的 概述 和 语义 Web 服务 的 概念 。 特 别 是 ， 我 们 讨论 
T Tim Berners Lee 的 技术 方案 。 然 后 我 们 讨论 了 XML、RDF、 本 体 以 及 语义 Web 的 
WS。 最 后 ， 我 们 讨论 了 语义 WS 以 及 如 何 利用 语义 Web 技术 。 请 注意 ， 就 像 WS 是 云 
的 核心 一 样 ， 语 义 Web 服务 是 语义 云 的 核心 。 如 前 所 述 , 语义 云 是 利用 语义 Web 技术 
的 云 。 也 就 是 说 ， 它 们 是 提供 语义 服务 的 集合 。 

接着 ,我 们 概述 了 语义 Web， 并 讨论 了 安全 标准 。 讨 论 了 语义 Web 的 安全 问题 ， 
我 们 认为 安全 必须 贯穿 所 有 层次 。 接 下 来 ， 我 们 提供 了 有 关 XML 安全 性 、RDF 安全 性 、 
安全 信息 集成 和 信任 的 更 多 细节 。 如 果 要 保证 语义 Web 是 安全 的 ， 我 们 就 需要 保证 所 
有 的 组 件 都 是 安全 的 。 我 们 还 介绍 了 对 访问 控制 和 XML 文档 传播 的 一 些 研究 。 最 后 ， 
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讨论 了 语义 Web 的 隐私 问题 。 

在 语义 Web 服务 上 还 有 很 多 工作 要 做 。WS 的 大 部 分 开发 都 集中 在 XML 技术 上 。 
我 们 需要 制定 WS 版 本 的 RDF 标准 。 例 如 ， 我 们 需要 为 WS 描述 开发 类 似 RDF 的 语言 。 
有 关 语 义 Web 服务 研究 才刚 刚 开 始 。 安 全 语义 Web 服务 本 质 上 集成 了 语义 Web 服务 技 
术 和 安全 技术 。 

在 确保 语义 Web 安全 方面 还 需要 做 许多 研究 。 需 要 继续 研究 XML 安全 性 ， 还 必须 
审查 RDF 的 安全 性 。 由 于 RDF 融合 了 语义 ， 所 以 更 为 困难 。 我 们 需要 审查 安全 约束 处 
理 和 上 下 文 相关 的 安全 约束 工作 ， 看 看 我 们 是 否 可 以 为 RDF 的 安全 性 采取 一 些 措施 。 
之 后 ， 也 需要 研究 本 体 对 安全 信息 集成 的 作用 。 我 们 必须 解决 一 些 困 难 的 问题 ， 比 如 ， 
如 何 将 安全 策略 整合 到 语义 Web E? 如 何 将 策略 纳入 本 体 ? 另外 ， 我 们 也 不 能 忘记 语 
X Web 的 隐私 和 信任 。 也 就 是 说 ， 我 们 需要 保护 个 人 的 隐私 ， 同 时 确保 个 人 为 了 执行 
职能 ， 而 拥有 所 需 的 信息 。 最 后 ， 需 要 形式 化 信任 的 概念 ， 并 研究 在 语义 Web 上 协商 
信任 的 方法 。 我 们 有 一 个 很 好 的 开始 ， 并 且 很 好 地 建立 了 语义 Web。 需 要 注意 的 是 ， 我 
们 必须 在 开始 时 就 考虑 安全 性 ， 而 不 是 事后 考虑 。 

标准 在 语义 Web 的 发 展 中 起 着 重要 的 作用 。W3C 已 经 非常 高 效 地 制定 了 XML 和 
RDF 的 标准 。 我 们 需要 继续 发 展 ， 尽 可 能 地 将 研究 成 果 转 化 到 标准 中 。 我 们 还 需要 将 
研究 成 果 和 标准 转移 到 商业 产品 中 。 语 义 Web 标准 的 下 一 步 工 作 ， 是 检查 安全 性 、 隐 
私 性 、 服 务 质量 、 完 整 性 以 及 其 他 功能 (如 安全 查询 服务 ) 。 正 如 我 们 强调 的 那样 ， 安 
全 和 隐私 是 至 关 重 要 的 ， 必 须 在 制定 标准 的 同时 进行 调查 研究 。 

我 们 对 语义 Web 和 安全 语义 Web 服务 进行 了 概述 ， 因 为 如 果 要 提供 机 器 可 理解 的 
服务 ， 云 服务 需要 使 用 语义 Web 服务 。 此 外 ， 我 们 为 云 和 云 安全 设计 了 几 个 实验 系统 ， 
它们 已 经 使 用 了 语义 Web 技术 。 我 们 称 这 种 云 服 务 是 语义 云 服 务 。 第 四 部 分 、 第 六 部 
分 和 第 七 部 分 将 讨论 这 些 实验 系统 。 
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S75 专用 的 Web 服务 和 安全 


7.1 概述 





第 4 章 论 述 了 数据 、 信 息 和 知识 管理 中 的 一 些 基 本 概念 ， 第 $ 章 论 述 了 WS 的 安全 
性 ， 第 6 章 论 述 了 语义 WS 和 安全 性 ， 在 本 章 中 ， 我 们 将 论述 专用 的 WS 及 相关 的 安全 
问题 。 专 用 WS 包括 数据 和 信息 以 及 知识 管理 的 服务 ， 信 息 互 操作 性 和 电子 商务 等 活动 
管理 WS， 医疗 保健 和 金融 等 领域 行业 的 WS, 

我 们 首先 论述 数据 管理 、 信 息 管理 、 知 识 管理 和 活动 管理 等 专用 WS 的 一 些 细节 。 
我 们 还 将 论述 域 WS 和 软件 以 及 数据 作为 服务 的 概念 。 然 后 ， 我 们 分 别论 述 这 些 主题 的 
安全 性 。 例 如 ， 正 如 讨论 安全 域 WS、 软 件 和 数据 作为 服务 的 安全 问题 一 样 ， 我 们 将 论 
述 安 全 性 对 于 数据 、 信 息 、 知 识 和 活动 管理 的 影响 。 我 们 还 将 第 6 章 论 述 的 语义 Web 
技术 整合 到 这 些 WS 中 。 

本 章 的 结构 如 下 ， 在 7.2 节 中 ， 我 们 将 
论述 数据 、 信 息 和 知识 以 及 活动 管理 等 专用 
的 WS。 这 些 WS 的 安全 性 将 在 7.3 节 中 论 
述 。 本 章 结束 于 第 7.4 节 。 图 7. 1 为 本 章 论 
述 的 概念 。 正 如 我 们 之 前 所 论述 的 ，WS 是 
云 计 算 的 核心 。 因 此 ， 数 据 、 信 息 、 知 识 和 
活动 管理 的 WS 是 云 数据 、 信 息 、 知 识 和 活 
动 管理 的 实质 。 例 如 ， 云 数据 管理 服务 A 
如 查询 服务 ) 将 利用 本 章 论 述 的 数据 管理 服务 。 第 三 部 分 和 第 五 部 分 将 论述 云 数 据 、 
言 息 、 知 识 和 活动 管理 的 WS。 第 四 部 分 、 第 五 部 分 和 第 七 部 分 论述 了 与 这 种 基于 云 的 
WS 有 关 的 实验 系统 。 



























































专用 的 Web 服 
务 和 安全 性 


















安全 专用 的 
Web 服 务 


专用 Web 服 务 


图 7.1 专业 化 Web 服务 和 安全 性 




















7.2 专用 Web 服务 


7.2.1 总 述 


在 7.2 节 中 ， 我们 将 论述 各 种 专用 的 WS。 这 些 包 括 数 据 、 信 息 和 知识 管理 的 WS 

以 及 域 WS, ixJ6 WS 使 用 第 5 章 中 论述 的 标准 ， 如 SOAP, XML, UDDI 和 WSDL。 
本 节 的 结构 如 下 : 数据 管理 的 WS 将 在 7. 2. 2 节 中 讨论 ; 关于 地 理 空间 数据 管理 等 
复杂 数据 管理 的 WS 将 在 7.2.3 节 中 讨论 ; 信息 管理 的 WS 将 在 7.2.4 节 讨论 ; 第 7.2.5 
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节 将 讨论 知识 管理 的 WS; 第 7.2.6 节 将 讨论 电子 商务 和 信息 共享 等 活动 管 型 





WS 将 在 7.2.7 节 中 讨论 ; 一 些 新 兴 的 WS 将 在 7. 2. 8 节 中 讨论 。 


7.2.2 数据 管理 的 Web 服务 




















的 WS; 域 


各 种 数据 管理 功能 可 以 作为 WS 被 调用 。 例 如 ， 查 询 WS 将 包括 多 个 WS 的 组 合 ， 
查询 修改 服务 和 查询 优化 服务 。 查 询 服务 将 调用 存储 服务 以 从 存储 中 检索 数据 。 事 务 服 

















务 将 执行 事务 。 





WS 也 可 以 使 用 语义 Web 技术 来 产生 语义 WS。 起 初 ， 一些 策 略 ( 例 如， 管理 策略 
和 完整 性 策略 ) 可 以 用 XML 和 RDF 之 类 的 语言 表示 。 这 是 语义 Web 的 重要 贡献 之 一 。 
现在 ， 数 据 库 也 可 能 由 XML 和 RDF 文件 组 成 。 例 如 ，Oracle 公司 的 产品 现在 具有 管理 
XML 和 RDF 文档 的 能 力 。 因 此 ， 我 们 需要 应 用 数据 管理 技术 来 管理 XML 和 RDF 文档 。 

















语义 Web 技术 在 异 构 数 据 库 集成 中 具有 应 
JH. 例如， 需要 本 体 来 处 理 语义 异 质 性 。XML 现 
在 被 用 作 公 共 数 据 表示 语言 。 关 于 数据 仓库 ， 可 
以 使 用 XML 和 RDF 来 指定 策略 。 此 外 ， 本 体 还 
可 用 于 数据 转换 ， 以 将 数据 导入 到 仓库 。 因 为 本 
体能 阐明 各 种 概念 促进 数据 挖掘 ， 使 得 它 也 能 应 
用 于 数据 挖掘 。 男 一 方面 ， 网 络 上 的 大 量 数据 将 
不 得 不 被 挖掘 出 来 ， 以 提取 信息 来 引导 代理 理解 
网 页 。 总 之 ,在 数据 管理 的 各 个 方面 ，WS 和 语 
义 Web 技术 都 有 应 用 。 图 7.2 说 明了 数据 管理 
的 WS。 


7.2.3 复杂 的 数据 管理 Web 服务 
























































多 媒体 和 地 理 空间 数据 管理 操作 ( 如 查询 ) 可 以 作为 WS 调 月 
扩展 ， 以 便 用 于 多 媒体 和 地 理 空间 数据 。 例 如 ，SMIL (同步 多 媒体 集成 语言 ， 








查询 处 理 服务 


元 数据 管理 服务 





事务 处 理 服务 


存储 管理 服务 





完整 性 管理 服务 
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安全 /管理 服务 

















图 7.2 数据 管理 的 Web 服务 




















nized Multimedia Integration Language) 是 视频 标记 语言 ， 而 语音 是 











在 以 SMIL 表示 的 视频 数据 上 ， 可 以 执行 以 XML 和 RDF 或 者 更 多 
REI) 指定 的 访问 控制 策略 。0GC (开放 地 理 空间 信息 联盟 ，Open Geospatial Consorti- 
um) 等 组 织 制 定 了 GML (地 理 标记 语言 ，Geography Markup Language), OGC 规定 了 作 











为 数据 层 编码 的 地 理 空间 标准 ， 这 个 标准 就 依赖 于 GML f 























Mig, OWL - S 提供 了 语义 丰 


日 。 此 外 ，XML 正在 
Synchro- 
音频 数据 的 标记 语言 。 
其 他 描述 性 语言 (如 





富 的 应 用 级 平台 ， 用 于 使 用 描述 性 逻辑 对 Web 服务 元 数据 进行 编码 。 作 为 地 理 空间 语 
X. Web 互 操作 性 实验 的 一 部 分 ，0GC 正在 寻找 新 的 路 径 来 整合 SMIL FI GML, 图 7.3 说 
明了 复杂 数据 管理 的 WS (例如 地 理 空间 数据 管理 )。 在 这 里 ， 服 务 提供 商 在 GML 或 
GRDF (我 们 设计 的 地 理 空间 RDF) 中 发 布 服务 ， 客 户 端 将 从 目录 中 获取 服务 的 位 置 ， 

















然后 从 服务 提供 商 获取 服务 。 





我 们 对 RDF 进行 了 扩展 ， 形 成 了 GRDF， 以 适用 于 地 理 空间 数据 。 我 们 使 用 GRDF 
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E 、 GRDF 上 发 布 






服务 请 求 者 





请 求 服务 : 
查找 地 图 


> 地 理 空间 数据 服务 提供 商 
图 7.3 ”复杂 数据 管理 的 Web 服务 

















中 指定 的 本 体 来 处 理 语义 异 质 性 。 这 种 本 体 然后 被 用 于 语义 互 操作 性 。GRDF 的 详细 信 
息 可 以 在 本 章 参考 文献 [ALAM06] 中 找到 。 在 GRDF 之 上 ,我 们 开发 了 地 理 空 间 本 
体 。 本 体 的 描述 在 本 章 参考 文献 [THUR07] 中 。 我们 的 团队 (Thuraisingham 、Ashra- 
ful, Subbiah 和 Khan) 已 经 开发 了 一 个 名 为 DAGIS 的 系统 ， 主 要 用 于 本 体 和 答案 查询 。 
该 系统 在 本 章 参考 文献 [THURO7] 中 有 描述 ， 它 是 一 个 框架 ， 提 供 了 一 种 在 地 理 空 间 
数据 编码 级 别 和 服务 框架 上 实现 语义 互 操作 性 的 方法 。DAGIS 是 一 个 集成 平台 ， 提 供 使 
用 OWL -S 服务 本 体 ， 构 建 地 理 空间 数据 交换 接口 的 机 制 和 架构 。 为 了 本 体 自 动 发 现 ， 
动态 组 合 和 服务 调用 结合 地 理 空间 领域 特征 ，DAGIS 是 获取 和 整合 地 理 空间 数据 的 一 站 
式 平台 。 借 助 GRDF 中 的 数据 编码 ， 以 及 通过 DAGIS 或 客户 端 代 理 提 供 智 能 推理 ， 可 
以 推理 出 有 效 载荷 数据 的 能 力 。 服 务 级 别 的 DAGIS 和 数据 编码 层 的 GRDF 提供 了 一 个 
完整 的 统一 模型 ， 以 便 实 现 地 理 空 间 语义 Web 的 愿景 。 该 架构 还 增强 了 对 DAGIS 接口 
提出 的 客户 机 查询 的 响应 功能 。 图 7.4 为 DAGIS 架构 。 


Hi LEA 
服务 提供 商 1 注册 /通知 DURT 
推理 /匹配 引擎 
服务 提供 商 n 3. 服 务 发 现 ， 服 务 制定 


DAGIS 接 口 DAGIS 代 理 


2. 查 询 
图 7.4 DAGIS 架构 
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Web 技术 的 应 用 ， 














个 简单 的 建议 ， 用 于 地 理 启 用 或 标注 ， 
EL. GeoRSS 提出 了 一 种 标准 化 的 方式 ， 其 中 定位 编码 具有 足够 的 
满足 大 多 数 网 页 内 容 描述 位 置 的 需要 。GeoRSS 也 是 一 种 轻 量 级 的 


RSS) 能 提供 位 置信 
简单 性 和 描述 性 ， 以 
方式 ， 以 其 





























7.2.4 信息 管理 的 Web 服务 











也 基于 XML 的 格式 (包括 XHTML) 来 描述 地 到 


围绕 关于 地 理 空间 数据 的 WS， 其 他 成 果 还 包括 CeoRSS， 它 是 一 种 地 理 空间 语义 
我 们 将 在 本 节 中 讨论 。 如 本 章 参 考 文献 [OGC] 所 述 ，GeoRSS 是 一 
“简易 信息 聚合 ” 


( Really Simple Syndication, 








EFL 


WS 可 以 被 各 种 信息 管理 应 用 程序 调用 。 例 如 ， 数 据 挖掘 和 数据 仓库 操作 可 以 作为 





WS 实现 。 类 似 地 ， 信 息 检索 操作 以 及 数字 图 


数据 管理 一 样 ， 
完整 性 策略 。 














语义 Web 技术 也 被 应 





用 


( 见 本 章 参 考 文献 [STUD]) 提出 了 数字 图 书馆 应 
图 书馆 中 语义 技术 的 典型 使 用 场景 包括 用 


“数字 
































户 接口 和 人 机 交互 〈( 显 示人 信息， 允许 大 型 信息 收 














集 的 可 视 化 和 导航 ) 、 用 











息 空间 )、 个 性 化 (平衡 于 基于 个 人 和 社区 之 间 











的 个 性 化 ) 、 

















书馆 管理 操作 也 可 以 作为 WS 被 调用 。 如 
诸如 XML、RDF 和 OWL 之 类 的 语义 Web 技术 ， 可 用 于 表示 各 种 管理 和 

















用 户 交 互 ”"”。 他 们 阐述 了 SEKT HH, 


试图 解决 许多 难题 。 他 们 进一步 指出 ， 通 过 使 用 
本 体 和 语义 Web 技术 ， 将 会 建成 一 些 数字 





馆 ， 他 们 能 够 给 出 对 数字 














们 总 结 了 他 们 在 论文 中 讨论 上 
有 用 




















的 先进 语义 Web 技术 。 它 





























编辑 器 、 注 释 工 具 和 推理 引擎 。 有 关 详 细 信息 ， 


请 参见 本 章 参考 文献 [THUE10] 。 


管理 的 WS。 











7.2.5 知识 管理 的 Web 服务 


各 种 知识 管理 操作 ， 比 妇 





护 公司 网 站 等 ， 都 可 以 作为 WS 被 调用 。 这 些 WS 可 以 利用 


0 创建 和 














于 信息 管理 ， 特 别 是 数字 图 书馆 管理 。Studer 及 其 团队 
语义 Web 的 重要 方向 。 他 们 指出 ， 
数字 图 书馆 服务 多 媒体 服务 
户 概 况 (考虑 到 整体 信 
数据 仓库 服务 协作 服务 
图 书 
图 书馆 的 一 致 看 法 。 我 
9 一些 对 数字 图 书馆 “| 信息 检索 服务 | | 数据 挖 气 服 务 
它们 是 本 体 论 、 本 体 
图 7.5 为 信息 图 7.5 信息 管理 的 WS 





管理 知识 产权 、 存 储 和 管理 公司 的 专业 知识 以 及 维 














语义 Web 技术 。 














语义 Web 技术 在 知识 管理 中 有 许多 应 用 。 例 如 ， 我 们 需要 本 体 来 捕获 和 表示 知识 


和 理论 。 在 关于 语义 Web 和 知识 管理 











例子 ， 是 关于 “一 个 政治 学 家 萨 莉 ， 她 想 研 究 英 
度 在 一 年 多 的 时 间 里 发 生 了 多 大 程度 的 变化 ， 以 及 是 什么 因素 导致 了 这 种 变化 ” ， 她 该 





如 何 研究 这 些 ? 他 进一步 指出 ， 





Fk] 


























EE 的 文章 中 ,保罗 沃 伦 (Pau Warren) 举 了 一 个 
首相 托尼 + 





布莱尔 对 津巴布韦 的 态 








“在 语义 Web 的 世界 是 





有 ， 院 莉 可 以 在 一 个 特定 的 时 期 


内 ， 搜 索 布莱尔 写 的 关于 这 个 话题 的 一 切 文 稿 。 她 也 可 以 搜索 他 的 演讲 手稿 。 信 息 标 记 
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不 会 因 文章 或 报告 级 别 而 停止 ， 而 标记 也 将 存在 于 文章 部 分 中 。 所 以 ， 陕 利 还 可 以 找到 
政治 评论 家 写 的 其 中 包含 布莱尔 演讲 手稿 的 文章 ”( 见 本 章 参考 文献 [WARR06 ] ) 。 
现在 ， 知 识 管理 也 有 一 些 应 用 需要 建立 语义 Web。 例 如 ， 作 为 知识 管理 的 结果 ， 捕 

















获 的 现 有 知识 可 以 由 代理 使 用 ， 以 更 好 地 理解 网 页 。 


知识 管理 服务 











知识 产权 管理 专家 搜索 服务 











图 7.6 知识 管理 的 WS 





7.2.6 活动 管理 的 Web 服务 


业务 流程 管理 服务 




















图 7. 6 为 知识 管理 的 WS, 














在 第 4 章 中 ,我们 讨论 了 活动 管理 ， 包 括 电 子 商务 、 信 息 共享 和 信息 互 操作 性 。 在 
本 节 中 ， 我 们 将 讨论 WS 的 活动 管理 。 图 7.7 说 明了 WS 与 活动 管理 之 间 的 关系 。 我 们 





将 讨论 每 个 活动 的 细节 。 
7.2.6.1 电子 商务 

WS 和 语义 Web 已 经 应 用 于 电子 商务 的 多 个 
方面 。 一 是 为 电子 商务 应 用 开发 专门 的 标记 语 
言 ， 例 如 电子 商务 可 扩展 标记 语言 (Electronic 
Business using eXtensible Markup Language, 
ebXML); 二 是 语义 电子 商务 ， 也 就 是 利用 语义 
Web 技术 实现 的 电子 商务 流程 ; 三 是 使 用 WS 来 
调用 电子 商务 应 用 。 

如 本 章 参考 文献 [EBXM] 所 述 ，ebXML 是 
Hi OASIS 和 UN / CEFACT (联合 国贸 易 便利 化 和 
电子 商务 中 心 ) 发 起 的 基于 XML 的 标准 家 族 ， 
其 任务 是 提供 一 个 开放 的 基于 XML 的 基础 设施 ， 
其 使 全 球 所 有 贸易 伙伴 可 以 互 操作 ， 采 用 安全 和 










































































一 致 的 方式 使 用 全 球 电子 商务 信息 。 该 项 目的 初始 目标 是 为 




















电子 商务 服务 信息 共享 服务 





供应 链 管 理 服务 社交 网 络 服务 

















信息 集成 服务 信息 互 操 作 性 服务 








图 7.7 




















] 于 活动 管理 的 Web 服务 








此 务 流程 制定 XML 标准 。 


这 些 标 准 包括 合作 协议 、 核 心 数 据 组 件 、 消 息 传递 、 注 册 表 和 存储 库 。 
针对 电子 商务 应 用 ， 开 发 了 相关 本 体 ， 这 些 本 体 以 RDF, RDF -S, OWL fl OWL - 
S 等 语言 定义 。 例 如 ， 在 OBELIX 项 目 中 ， 提 出 了 对 电子 商务 和 本 体 非常 好 的 描述 。 作 
者 指出 ， 电 子 商 务 的 问题 是 这 些 模糊 概念 导致 缺乏 精确 的 描述 。 然 后 ， 他 们 根据 需求 工 
程 来 前 述 他 们 的 方法 ， 并 且 定 义 了 电子 商务 的 本 体 。 
该 项 目的 更 多 细节 在 本 章 参考 文献 [OBEL] 中 给 出 。 它 说 明 , “OBELIX 是 世界 上 
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第 一 个 基于 本 体 的 电子 商务 系统 ， 提 供 智 能 、 可 扩展 的 集成 和 互 操作 性 功能 。” 他 们 还 
表示 ， 该 项 目 “ 结 合 本 体 管理 和 配置 、 电 子 商务 、 应 用 服务 器 和 基于 本 体 的 电子 应 用 
工具 以 及 电子 商务 图 书馆 。“OBELIX 是 一 个 欧洲 委员 会 的 项 目 ， 其 目标 是 在 语义 Web 
环境 中 自动 地 提供 电子 商务 服务 ， 这 种 语义 Web 环境 已 经 被 称 为 语义 电子 商务 。 

一 些 关 于 语义 电子 商务 的 有 趣 的 工作 ， 正 在 由 北 卡 罗 来 纳 州 格林 斯 博 罗 大 学 的 一 个 
小 组 进行 研究 。 他 们 表示 ， 语 义 电子 商务 是 一 些 组 织 机 构 利 用 公司 知识 ， 协 调 地 设计 业 
务 流程 ( 见 本 章 参 考 文献 [SING06] ) 。 它 本 质 上 将 语义 Web 技术 与 业务 流程 管理 和 知 
识 管理 相 结合 。 业 务 流程 利用 知识 管理 来 提高 其 效率 和 效用 ， 并 使 用 语义 Web 技术 
(如 本 体 ) 方便 更 好 地 理解 。 

语义 商务 ， 也 就 是 一 种 或 多 或 少 的 语义 电子 商务 ， 也 正在 研究 中 。 例 如 ， 位 于 布 里 
斯 托 尔 的 惠普 实验 室 的 研究 人 员 提 出 了 企业 对 企业 的 电子 商务 交互 的 生命 周期 ， 并 展示 
了 语义 Web 如 何 支 持 服 务 描述 语言 ， 这 种 服务 描述 语言 可 在 整个 生命 周期 中 使 用 。 他 
们 表明 ， 通 过 使 用 DAML + OIL， 能 够 开发 一 种 服务 描述 语言 ， 不 仅 可 以 用 于 描述 广 
告 ， 还 可 以 实现 配对 查询 、 协 商 建议 和 协议 〈 见 本 章 参考 文献 [TRAS] ) 。 
7.2.6.2 协作 与 工作 流 

语义 Web 技术 也 可 以 应 用 于 工作 流 和 协作 应 用 。 例 如 ， 工 作 流 管理 联盟 开发 了 两 
种 语言 。 第 一 种 是 Wf - XML (工作 流 XML, Workflow XML )， 如 本 章 参 考 文献 
[WFMC] 所 述 ,“Wf- XML 扩展 了 ASAP (OASIS 的 异步 服务 访问 协议 ) 模型 ， 包 括 
BPM (Business Process Management， 业 务 流程 管理 ) 和 工作 流 交 换 功 能 。 这 个 联盟 还 开 
发 了 XPDL (XML Process Definition Language, XML 过 程 定义 语言 )。 如 本 章 参 考 文献 
[WFMC] 所 述 ,“XPDL 为 实现 业务 流程 管理 和 工作 流 引 擎 ， 以 及 设计 、 分 析 和 交换 业 
务 流 程 提 供 了 一 个 框架 。 

从 文字 上 来 说 ， 虽 然 我 们 在 这 里 讨论 标记 语言 与 XML 相当 ， 但 是 这 些 语言 已 经 用 
本 体 扩展 ， 为 多 媒体 、 工 作 流 和 协作 计算 应 用 程序 提供 语义 。 例 如 ， 苏 格 兰 研究 人 员 已 
经 开发 了 基于 RDF 的 语言 ， 应 用 到 了 协作 和 工作 流 应 用 程序 ( 见 本 章 参考 文献 
[| CHENO4] ) 。 
7.2.6.3 信息 集成 
虽然 语义 Web 技术 是 为 机 器 可 理解 的 网 页 开发 的 ， 特 别 是 XML 被 开发 用 于 在 Web 
上 进行 文档 交换 ， 但 这 些 技术 也 可 以 扩展 应 用 到 信息 互 操 作 性 方面 。20 世纪 90 年 代 ， 
语法 异 质 性 是 一 个 主要 问题 ， 比 如 数据 模型 异 质 性 。 各 网 络 技术 社区 正在 讨论 通用 对 象 
模型 的 开发 ， 和 面向 通用 数据 表示 的 扩展 关系 模型 ( 见 本 章 参考 文献 [ THUR97 ] ) 。 然 
而 ， 由 于 XML 的 发 展 ， 它 是 全 球 数据 表示 的 首选 语言 。 许 多 组 织 ， 包 括 国防 部 (De- 
partment of Defense，DoD)〉 正 在 使 用 XML 和 XML 框架 来 发 布 各 个 数据 库 的 元 数据 。 这 
是 对 通用 数据 模型 的 重大 发 展 。 
虽然 XML 是 表示 语法 的 理想 选择 ， 但 我 们 需要 用 于 表示 语义 的 RDF 和 类 似 OWL 
的 语言 。 因 此 ， 基 于 RDF 的 语言 正在 被 用 来 处 理 语 义 异 质 性 。 例 如 ， 本 体 被 用 来 定义 
各 种 术语 ， 以 及 表示 通用 语义 或 区 分 不 同 的 语义 。 然 后 ， 这 些 本 体 就 用 于 信息 互 操作 
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性 ， 并 理解 不 同 组 织 之 间 的 各 种 术语 。 
7.2.6.4 其 他 活动 
组 织 可 以 调用 WS 用 于 信息 共享 、 社 交 网 络 和 供应 链 管理 。 例 如 ， 组 织 A 可 以 调用 
一 个 Web 服务 将 相关 信息 放置 到 共享 空间 中 ， 另 一 个 Web 服务 可 以 检索 到 男 一 个 组 织 
放置 的 信息 。 组 织 可 以 通过 调用 Web 服务 来 向 提供 商 请 求 部 分 内 容 。 该 Web 服务 可 以 
调用 其 他 WS 来 请 求 其 他 部 分 内 容 。 
语义 Web 技术 也 可 用 于 信息 共享 、 社 交 网 络 和 供应 链 管理 。 例 如 ， 要 共享 的 信息 
可 以 用 XML、RDF 或 OWL 表示 。 基 于 语义 Web 技术 的 框架 可 以 用 作 信 息 共 享 的 平台 。 
在 社交 网 络 的 情况 下 ， 可 以 从 数据 中 提取 第 一 本 体 ， 以 形成 社交 网 络 。 这 些 本 体 可 以 被 
用 来 提取 模式 。 语 义 Web 社交 网 络 的 一 个 很 好 的 例子 是 在 RDF 中 指定 的 FOAF (朋友 
ZK, Friend Of A Friend, FOAF)。 













































































7.2.7 领域 Web 服务 
在 本 节 中 ， 我们 将 讨论 产业 领域 的 WS， 包 括 防御 、 国 土 安全 和 医疗 卫生 。 图 7.8 


为 我 们 将 要 探讨 的 各 个 行业 。 
域 Web 服 务 
金融 Web 服 务 


图 7.8 领域 Web 服务 


























防御 Web 服 务 
7.2.7.1 防御 


最 早 使 用 WS 的 领域 就 是 防御 和 信息 领域 。 在 Jim Handler 博士 的 管理 下 ，DARPA 
的 DAML 计划 为 国防 部 开发 了 相关 技术 。 虽 然 安全 性 在 该 程序 中 不 是 考虑 因素 ， 但 是 
它 开 发 了 一 种 称 为 DAML (DARPA Agent Markup Language， 美 国 国防 高 级 设计 研究 署 代 
理 置 标语 言 ) 的 本 体 语 言 。 该 计划 与 W3C 紧密 合作 ， 开 发 了 机 器 可 理解 网 页 的 技术 。 
然后 ，DAML 与 欧洲 标准 OIL (本 体 接口 语言 ，Ontology Interface Language) 集成 ， 以 开 
R DAML + OIL。 当 美国 和 欧洲 共同 开发 DAML + OIL 时 ，W3C 开发 了 OWL 本 体 论 。 
如 前 所 述 ，OWL J RDF, DAML 和 OIL 发 展 而 来 。 除 了 表示 数据 之 外 ， 关 于 数据 的 推 
理 也 是 DAML 计划 的 重点 。 

在 20 世纪 90 年 代 末 和 21 世纪 初 ， 关 于 DAML 计划 进行 的 这 段 时 间 里 ， 美 国 国防 
部 参与 了 GCCS (全 球 指挥 和 控制 系统 ，Global Command and Control System) 计划 的 发 
KE, TEX PITRE, FAT DII COE (国防 信息 基础 设施 通用 作战 环境 ，Defense Infor- 
mation Infrastructure Common Operating Environment), DII COE 基本 上 由 几 个 工作 组 组 成 ， 
包括 用 于 分 布 式 计算 系统 、 多 媒体 和 数据 管理 的 工作 组 。 然 而 ， 随 着 WS 的 出 现 ， 美 国 
防 部 开始 大 量 投资 以 网 络 为 中 心 的 企业 服务 (Network - Centric Enterprise Services , 
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NCES), ， 以 达到 网 络 为 中 心 的 运营 。 这 导致 了 全 球 信息 网 格 的 发 展 ， 这 基本 上 也 是 NC- 
ES 的 基础 设施 。 这 个 基础 设施 是 基于 面向 服务 的 架构 和 WS。 因 此 ， 它 的 许多 发 展 受 到 
XML 和 本 体 的 有 影响。 此外， 兴趣 社区 (Communities Of Interest, COI) 已 经 形成 ,这些 
社区 已 经 为 其 应 用 开发 了 共同 的 本 体 。WS 也 在 国土 安全 应 用 中 发 挥 重要 作用 。 例 如 ， 
本 章 参考 文献 [PALIO4] 中 已 经 探讨 了 使 用 语义 Web 技术 和 WS 来 实施 RFID (射频 识 
Hl], Radio Frequency Identifcation ) 标签 。 
7.2.7.2 医疗 保健 与 生命 科学 

W3C 在 2004 年 10 月 举办 了 一 场 研讨 会 ， 汇 集 了 生命 科学 研究 人 员 ， 以 确定 如 何 利 
用 语义 Web 技术 。 今 天 ， 一 些 专 家 正在 专注 于 为 医疗 保健 和 生命 科学 应 用 开发 本 体 、 
WS 和 标记 语言 。 例 如 ， 本 体 用 于 指定 药物 和 各 种 医学 术语 。 例 如 ， 作 为 W3C 中 Web 
本 体 工作 组 的 成 员 ，Jonathan Borden 已 经 为 医疗 保健 应 用 程序 指定 了 XML ( 见 本 章 参 考 
文献 [BORD]). 。 他 表示 ， 他 的 目标 是 使 用 本 体 和 标记 语言 来 回答 ， 比 如 “1997 -2000 
年 期 间 所 有 我 给 做 过 脑 肿瘤 的 患者 中 ， 匹 配 病理 严重 程度 和 匹配 临床 状态 ， 并 且 具 有 
P53 突变 的 患者 ，PCV 化 疗 在 五 年 内 是 否 提高 了 治愈 率 ?” 他 随后 说 明 如 何 利用 XML、 
RDF 和 OWL 来 有 效 地 回答 这 些 问题 。 

本 体 已 经 在 电子 医疗 记录 以 及 生命 科学 中 的 几 个 项 目 中 被 开发 出 来 〈( 见 本 章 参 考 
文献 [KREM] ) 。 例 如 ， 作 者 在 本 章 参考 文献 [LIFE] 中 指出 , “当代 生命 科学 研究 包 
括 的 各 种 组 成 部 分 ， 都 是 从 物理 、 化 学 、 数 学 、 医 学 和 许多 其 他 领域 中 吸收 而 来 的 ， 所 
有 这 些 方面 以 及 基本 的 哲学 问题 ， 在 构建 域 本 体 中 必须 要 考虑 到 。” 然 后， 他 介绍 了 如 
何 开发 生命 科学 的 域 本 体 。 
7.2.7.3 金融 
金融 领域 包括 必须 处 理 金融 的 任何 领域 ， 包 括 银行 和 交易 、 保 险 和 投资 管理 。 几 乎 
所 有 这 些 活动 现在 都 以 电子 方式 进行 。 我 们 现 有 电子 交易 、 电 子 银行 和 电子 保险 管理 
等 。 在 本 节 中 ， 我们 将 研究 可 信赖 的 语义 Web 在 金融 领域 的 应 用 。 

一 些小 组 正在 为 金融 领域 开发 WS 和 语义 Web 技术 。 例 如 ， 马 德里 的 小 组 对 应 用 语 
义 “ 本 体 论 ”平台 做 了 一 些 非常 好 的 研究 ， 该 平台 提供 了 中 对 内 容 和 语义 的 集成 ， 该 
集成 以 知识 基 方 式 体现 ， 基 于 低级 内 容 提 供 概 念 性 观点 ， 四 自 适 应 的 基于 超 媒体 的 知识 
可 视 化 和 导航 系统 及 @ 语 义 搜 索 设 施 (Semantic Search Facilities, CAST) ( 见 本 章 参 考 
文献 [CAST] ) 。 此 外 ， 他 们 已 经 开发 出 经 济 和 金融 信息 的 拓扑 。 比 利 时 的 另 一 个 小 组 
正在 开发 金融 安全 欺诈 检测 的 本 体 。 他 们 在 项 目 中 使 用 基于 本 体 的 知识 工程 来 检测 金融 
安全 欺诈。 特别 是 ， 他 们 从 法 规 和 法 律 上 制定 了 欺诈 司法 本 体 ( 见 本 章 参 考 文献 
[ZHAO]) 。 

另外 ， 针 对 特定 的 项 目 ， 如 在 马德里 和 比利时 的 工作 组 中 ， 为 金融 数据 管理 开发 本 
体 和 语义 ，XML 被 广泛 用 于 金融 服务 ， 现 在 这 被 认为 是 金融 的 标准 。 如 本 章 参 考 文献 
[XML] 所 述 ,“ 人 金融 服务 行业 正在 创建 各 种 标准 XML 格式 以 满足 其 特殊 需求 ”"。 正 在 
开发 的 标准 清单 包括 以 下 内 容 : 

互动 金融 交换 (Interactive Financial eXchange, IFX) 和 开放 式 金融 交换 ( Open Fi- 
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nancial eXchange, OFX), ， 用 来 处 理 消 费 者 和 其 他 形式 的 零售 银行 业务 。 

金融 信息 交换 ( Financial Information eXchange, FIX ) 正在 成 为 股票 交易 数据 的 标 
准 通信 协议 。 

FIX 标记 语言 (FIX Markup Language, FIXML) 使 用 XML 来 表达 FIX 协议 的 业务 
消息 。 
金融 产品 标记 语言 (Financial products Markup Language, FpML) 是 一 种 基于 XML 
的 交换 格式 ， 用 于 金融 衍生 品 市 场 的 交易 。 

市 场 数 据 定义 语言 (Market Data Defnition Language, MDDL) 是 市 场 数 据 的 定义 和 
通信 的 联盟 标准 ， 它 基于 XML， 这 些 数据 包括 用 于 分 析 、 交 易 和 评估 市 场 价 值 的 数据 ， 
他 们 要 借助 金融 工具 来 处 理 。 

可 扩展 商业 报告 语言 (eXtensible Business Reporting Language, XBRL) 是 一 个 “ 基 
T XML 的 规范 ， 用 于 准备 和 交换 财务 报告 以 及 数据 ”， 它 由 组 织 和 机 构 的 全 球 联盟 
开发 。 
7.2.7.4 电信 

WS 的 另 一 个 领域 应 用 是 电信 。 像 爱立信 、 详 基 亚 和 AT&T 这 样 的 公司 正在 为 这 个 
行业 开发 WS。Parlay X 是 Parlay 集团 的 一 项 成 就 。 如 维基 百科 的 文章 所 述 , “Parlay 集 
团 是 一 个 技术 行业 联盟 (成 立 于 1998 年 ) ， 为 通信 网 络 指定 了 API (应 用 程序 编程 接 
口 ) 。 这 些 API 使 得 传统 运营 商 内 部 和 外 部 的 组 织 都 能 够 创建 服务 。“2003 年 ， 该 集团 
开发 了 一 套 新 的 名 为 Parlay X 的 WS， 这 是 一 组 开发 人 员 使 用 的 更 简单 的 API” 如 本 章 
参考 文献 [TELE] 所 述 ，“Parlay X Web 服务 包括 第 三 方 呼叫 控制 (Tird - Party Call 
Control ，3PCC) 、 定 位 和 简单 支付 等 功能 。” 

本 章 参考 文献 [TELE] 中 提供 了 一 个 关于 备 受 关注 和 有 用 的 电信 业 WS 的 调查 。 
文章 指出 ， 由 于 标准 的 变化 、 竞 争 和 技术 进步 ， 近 年 来 电信 业 一 直 处 于 崛起 状态 。 作 者 
为 这 个 行业 使 用 WS 提供 了 强 有 力 的 例证 ， 并 解释 了 Parlay X 的 事件 驱动 架构 和 开发 
技术 。 

7.2.8 新兴 的 Web 服务 


7.2.8.1 X BARS 

越 来 越 受 欢迎 的 是 使 用 X 作为 服务 。X 可 以 是 数据 、 软 件 平台 、 基 础 设施 或 任何 受 
人 关注 的 东西 。 使 用 数据 作为 服务 ， 组 织 可 以 利用 数据 提供 者 ， 获 取 数 据 并 调用 数据 作 
为 服务 。 在 软件 作为 服务 的 情况 下 ,组织 可 以 从 服务 提供 商 获 得 作为 服务 的 编译 器 、 操 
作 系 统 或 应 用 程序 。 在 本 节 中 ,我 们 将 说 明 这 些 服 务 。 一 般 来 说 ，X 作为 服务 由 Xaas 
(X as a Service) 表示 。 
7.2.8.2 数据 即 服务 

数据 即 服务 (Data as a Service, DaaS) 已 经 存在 了 相当 一 段 时 间 。 例 如 ，Choice 
Point 和 Acxiom 等 公司 管理 金融 和 医疗 行业 的 各 种 公司 的 数据 。 数 据 服务 可 能 包括 数据 
安全 和 隐私 服务 ， 以 及 数据 质量 和 清理 服务 。 图 7.9 为 作为 服务 模型 的 数据 。 尽 管 
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DaaS 也 被 用 于 桌面 服务 ， 但 我 们 这 里 将 
数据 作为 服务 称 为 Daas。 " — 
将 数据 服务 与 Web 服务 技术 集成 是 
最 近 的 一 个 概念 。 如 本 章 参 考 文献 [DA- 
TA] 中 所 述 ， 一 旦 您 通过 新 的 、 能 够 返 
回 您 发 送 或 执行 的 字符 串 WS 时 (比如 
说 数学 计算 ) ， 那 么 服务 就 要 促进 完成 相 
应 的 数据 的 插入 或 检索 。 无 论 您 是 要 通 
过 服务 ， 请 求 检 索 客 户 和 产品 数据 ， 还 图 7.9 数据 即 服务 
是 想 要 将 关键 业务 合作 伙伴 的 供应 链 操作 公开 ， 关 键 都 是 要 将 数据 访问 层 折 合成 SOA。 
WSO2 数据 服务 为 您 的 数据 服务 定位 提供 了 一 个 方便 和 精心 设计 的 机 制 。 

WSO2 企业 服务 总 线 允 许 服务 松散 耦合 ， 以 受 管理 的 虚拟 化 方式 连接 系统 ， 使 管理 
员 能 够 控制 和 直接 通信 ， 而 不 会 中 断 现 有 的 应 用 程序 。WSO2 具有 许多 组 件 ， 数 据 服务 
器 组 件 本 质 上 是 提供 数据 服务 ， 包 括 集成 各 种 数据 源 、 数 据 库 管理 和 相关 服务 等 。 

正在 发 展 的 另 一 个 概念 是 使 用 数据 库 管 理 作 为 一 项 服务 。 加 利 福 尼 亚 大 学 尔 湾 分 校 
的 Sharad Mehrotra 和 他 的 团队 与 IBM、 普 渡 大 学 和 得 克 萨 斯 大 学 达拉斯 分 校 的 研究 人 员 
一 起 对 这 一 概念 进行 了 研究 。 这 个 想法 是 探索 数据 管理 的 新 范例 ， 其 中 第 三 方 服务 提供 
商 承载 “数据 库 即 服务 ”， 为 其 客户 提供 无 颖 机 制 ， 以 在 主机 站 点 创建 、 存 储 和 访问 其 
数据 库 。 这 种 模式 能 够 减轻 组 织 很 多 负担 ， 包 括 购买 昂贵 的 硬件 和 软件 ， 处 理 软 件 升 
级 ， 聘 请 专业 人 员 执 行 管理 和 维护 任务 等 ， 这些 工 作 都 由 服务 提供 商 接 管 。Mehrotra 的 
团队 已 经 在 互联 网 上 开发 和 部 署 了 一 个 名 为 NetDB2 的 数据 库 服 务 ， 它 在 不 断 被 使 用 。 
从 某 种 意义 上 讲 ，NetDB2 支持 的 数据 管理 模式 ， 为 企业 购买 数据 管理 服务 提供 了 一 种 
有 效 的 机 制 ， 从 而 使 他 们 能 够 集中 精力 在 核心 业务 上 。 另 外 一 个 备 受 关注 的 方向 ， 是 ; 
WS02 数据 服务 中 存在 的 WS 概念 ， 与 Mehrotra 及 其 团队 正在 进行 的 研究 结合 起 来 ， 将 
更 高 级 的 数据 管理 服务 纳入 标准 。 
7.2.8.3 软件 即 服务 

另 一 个 真正 风靡 的 概念 是 软件 即 服务 ， 也 称 为 SaaS (Software as a Service， 软 件 即 
服务 ) 。 如 本 章 参考 文献 [SOFT] 所 述 ， 软 件 即 服务 是 一 种 软件 部 署 模式 ， 提 供 商 将 应 
用 程序 许可 给 客户 ， 作 为 服务 按 需 使 
JH, SaaS 软件 提供 商 可 以 在 自己 的 S 软件 服务 提供 商 
Web 服务 器 上 托管 应 用 程序 ， 或 者 将 ES 
应 用 程序 下 载 到 消费 者 的 设备 ， 在 使 
用 后 或 在 按 需 合 同 到 期 后 禁用 。 按 需 
功能 也 可 以 在 内 部 处 理 ， 以 在 企业 内 
部 或 由 第 三 方 (应 用 服务 提供 商 ，Ap- 
plication Service Provider，ASP) 提供 企 
业 之 间 共 享 许可 证 。 图 7. 10 为 SaaS, 图 7.10 ”软件 即 服务 
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还 要 指出 的 是 ，SaaS 还 可 以 利用 面向 服务 的 架构 ， 来 使 软件 应 用 程序 相互 通信 。 
每 个 软件 服务 均 可 以 充当 服务 提供 商 ， 通 过 公共 代理 将 其 功能 告诉 给 其 他 应 用 程序 ; 并 
且 还 可 以 充当 服务 请 求 者 ， 使 其 他 服务 的 数据 和 功能 具体 化 。 企 业 资源 计划 (Enter- 
prise Resource Planning, ERP) 软件 提供 商 利 用 SOA 来 构建 SaaS 软件 ， 例 如 SAP AG 的 
SAP Business ByDesign, 

还 有 些 人 对 SaaS 持 怀 疑 态度 ， 因 为 他 们 声称 这 可 能 是 相当 昂贵 的 ， 并 且 有 很 多 炒 
作成 分 。 因 此 ， 一 个 公司 必须 做 出 权衡 ， 是 否 要 制作 软件 、 购 买 软件 ， 还 是 要 将 其 作为 
SaaS 模型 的 一 部 分 进行 授权 等 。 在 我 们 看 到 SaaS 成 为 普遍 趋势 之 前 ,仍然 需要 做 很 多 
工作 。 有 关 通 过 云 计算 提供 这 些 服务 的 更 多 细节 将 在 本 书 第 三 部 分 中 讨论 。 
7.2.8.4 其 他 X 即 服务 

还 有 其 他 几 种 类 型 的 X 作为 服务 。 这 些 包括 桌面 即 服务 、 网 络 即 服 务 、 平 台 即 服 
务 以 及 基础 设施 即 服务 。 我 们 讨论 两 个 这 样 的 服务 。 如 维基 定义 所 述 : “平台 即 服务 
(Platform as a Service, PaaS) 是 将 计算 平台 和 解决 方案 堆栈 作为 服务 的 交付 。 随 着 它 的 
进一步 发 展 ， 会 提出 一 个 软件 开发 平台 ， 这 个 平台 为 了 云 堆栈 顶层 的 云 计算 而 设计 。” 
这 样 的 话 ， 一 个 组 织 就 可 以 调用 服务 ， 并 获得 硬件 和 软件 堆栈 并 部 署 应 用 程序 。 在 基础 
设施 即 服务 (Infrastructure as a Service，IaaS) 的 情况 下 ， 维 基 定 义 说 明 如 下 : “基础 设 
施 即 服务 (laas) 是 将 计算 机 基础 设施 (通常 为 平台 虚拟 化 环境 ) 作为 服务 的 交付 。 
这 些 虚拟 基础 设施 堆栈 是 “一 切 即 服务 ”趋势 的 示例 ， 并 且 共 享 许 多 常见 特性 。 客 户 
不 是 购买 服务 器 、 软 件 、 数 据 中 心 空间 或 网 络 设备 ， 而 是 将 这 些 资源 作为 完全 外 包 的 服 
务 购买 。 该 服务 通常 在 公用 事业 计算 基础 上 计 费 ， 并 且 消 耗 的 资源 (因此 产生 的 成 本 ) 
将 代表 性 地 反映 活动 水 平 。 这 也 是 网 络 虚拟 主机 和 虚拟 专用 服务 器 的 演进 。” 
7.2.8.4.1 亚马逊 Web 服务 

如 亚马逊 Web 服务 (Amazon Web Services, AWS) [AMAZON] 的 网 页 所 述 ， 自 
2006 年 初 以 来 ，AWS 已 经 为 各 种 规模 的 公司 提供 了 基于 云 的 基础 设施 WS 平台 。 使 用 
AWS， 您 可 以 请 求 计 算 能 力 、 存 储 和 其 他 服务 。 根 据 业 务 的 需要 ， 可 以 访问 一 套 灵活 
IT 基础 设施 服务 。 使 用 AWS， 您 也 可 以 灵活 选择 任何 一 个 开发 平台 或 编程 模型 ， 只 要 
对 您 想 要 解决 的 问题 最 有 意义 即 可 。 您 只 需 支 付 您 所 使 用 的 费用 ， 无 需 支 付 前 期 费用 或 
长 期 承诺 ， 使 AWS 成 为 最 具 成 本 效益 的 方式 是 向 您 的 顾客 和 客户 提供 应 用 程序 。 而 且 ， 
通过 AWS， 您 可 以 利用 Amazon. com 的 全 球 计 算 基 础 架构 ， 这 是 Amazon. com 零售 业务 
的 支柱 。 

AWS 有 一 些 组 件 ， 包 括 数据 库 (PRH SimpleDB) 、 存 储 (Amazon S3) 和 云 (Ama- 
zon EC2) 。 我 们 将 描述 本 章 参 考 文献 [ AMAZON] 中 讨论 的 一 个 这 样 的 组 件 。 其 他 组 件 
的 详细 信息 也 在 亚马逊 网 站 中 给 出 。Amazon SimpleDB 是 提供 数据 索引 和 查询 核心 数据 
库 功 能 的 Web 服务 。 该 服务 与 亚马逊 简单 存储 服务 (Amazon Simple Storage Service， 
Amazon S3 ) 和 亚马逊 弹性 云 计 算 (Amazon Elastic Compute Cloud, Amazon EC2) 紧密 结 
合 ， 共 同 提供 在 云 中 存储 、 处 理 和 查询 数据 集 的 能 力 。 还 要 说 明 的 是 ，Amazon WS 提供 
SOAP 和 REST, 
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网 格 WS 和 云 网 格 本 质 上 是 由 用 于 执行 各 种 应 用 程序 的 计算 机 集合 组 成 。 其 目标 是 
优化 资源 使 用 情况 ， 并 为 各 种 任务 安排 机 器 。 网 格 概念 最 近 已 经 扩展 到 云 中 ， 其 中 存在 
虚拟 计算 空间 ， 也 包含 映射 到 物理 机 需 的 大 量 虚 拟 机 。 这 种 概念 被 称 为 虚拟 化 。 信 息 周 
P) [MART08] 报道 说 ， 云 计算 代表 了 提供 企业 IT 的 一 种 新 方式 ， 在 某 些 情况 下 是 更 
好 、 更 便宜 的 方式 。 通 常 ， 网 格 和 云 可 以 互 换 使 用 。 一 般 而 言 ， 网 格 专注 于 调度 资源 ， 
然而 云 重 点 是 为 企业 提供 一 个 有 效 的 计算 平台 。 

WS 在 网 格 和 云 计算 中 发 挥 重 要 作用 。Globus 联盟 的 目标 是 开发 开放 式 网 格 服务 架 
构 (Open Grid Services Architecture，0GSA )。 如 本 章 参 考 文献 [GLOB] 所 述 ，OGSA 
“代表 了 基于 Web 服务 概念 和 技术 的 网 格 系统 架构 的 演进 。”Globus 联盟 发 布 了 一 系列 
工具 包 ， 其 中 最 新 的 是 Globus Toolkit 3. 0 版 本 。 它 由 “遵循 OGSA 原则 的 网 格 服务 开源 
集合 ”组 成 。Globus 工具 包 还 提供 了 一 种 开发 环境 ， 用 于 开发 遵循 OGSA 原则 的 新 网 格 
服务 。 

云 计 算 的 WS 包括 上 一 节 讨 论 的 AWS， 还 有 Google Apps 和 Salesforce. com CRM, 3X 
些 云 可 以 利用 网 格 计算 模式 ， 如 资源 调度 。 可 以 期 待 的 是 ， 服 务虚 拟 化 将 在 云 计算 中 发 
挥 主要 作用 。 在 最 近 的 一 篇 文章 中 ， 指 出 “服务 虚拟 化 是 一 种 从 一 个 或 多 个 预定 义 的 
服务 文件 创建 虚拟 服务 的 能 力 。 服 务 文件 通常 是 Web 服务 描述 语言 (WSDL) 文件 ， 通 
过 服务 容器 业务 应 用 程序 产生 ， 这 些 应 用 程序 由 Java、. NET, PHP 类 编程 语言 开发 生 
成 。 作者 还 指出 ， 服 务 可 能 包括 外 包 服 务 ， 如 SaaS, PaaS 或 laas 或 内 部 服务 。 关 于 云 
计算 技术 的 讨论 ， 更 多 细节 将 会 在 第 三 部 分 给 出 。 


7.3 专用 Web 服务 安全 



































































































































7.3.1 总 述 


在 7.3 节 中 ,我 们 将 论述 各 种 类 型 的 专用 的 WS 安全 。 这 将 包括 WS 用 于 安全 的 数 
据 、 信 息 和 知识 管理 以 及 领域 WS 的 安全 。 这 些 WS 使 用 第 5 章 论 述 的 WS 的 安全 标准 ， 
例如 SOAP, XML, UDDI 和 WSDL 安全 。 

本 节 的 结构 如 下 。 数 据 管理 的 WS 安全 将 在 第 7. 3. 2 节 中 论述 。 第 7.3.3 节 将 论述 
用 于 复杂 数据 管理 (如 地 理 空间 数据 管理 ) 的 WS 安全 。 有 关 信 息 管 理 的 WS 安全 将 在 
7.3.4 节 中 论述 。 有 关 知 识 管理 的 WS 安全 将 在 7.3.5 节 中 论述 。 有 关 活 动 管理 的 WS 
(如 安全 电子 商务 和 AIS) 安全 将 在 7.3.6 节 中 论述 。 域 WS 安全 将 在 7.3.7 节 中 论述 。 
一 些 新 兴 的 WS 安全 技术 将 在 7.3. 8 节 中 论述 。 有 关 数 据 和 应 用 程序 安全 性 的 更 多 详细 
言 息 ， 请 参阅 本 章 参 考 文献 [THUR05 ] 。 


7.3.2. 用 于 数据 管理 的 Web 服务 安全 


各 种 安全 数据 库 系 统 功能 可 以 被 作为 WS 调用 。 例 如 ， 查 询 管理 器 、 事 务 管理 和 元 
数据 管理 器 可 以 作为 WS 来 执行 。 因 此， 要 查询 数据 库 ， 必 须 调用 查询 服务 。 该 服务 可 
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以 调用 查询 翻译 服务 和 查询 优化 服务 。 它 还 
可 以 调用 元 数据 服务 来 提取 适当 的 元 数据 ， 
也 可 以 调用 安全 服务 来 检查 访问 控制 策略 。 

接 下 来 ， 可 以 使 用 语义 Web 技术 来 开发 
用 于 数据 管理 安全 的 语义 Web 服务 。 首 先 ， TT 














查询 处 理 安全 服务 | | 事务 处 理 安全 服务 






























































存储 管理 
安全 策略 可 能 用 XML 和 RDF 等 语言 表示 ， 安全 服务 安全 服务 
包括 推理 引擎 在 内 的 语义 Web 技术 可 能 被 应 
用 于 处 理 推 理 和 隐私 问题 。 例 如 ，RDF 和 
Ax vH = b 1 ^ Ap LEE 9E 
OWL 等 语 言 可 用 于 指定 策略 ， 然后 可 以 凭借 完整 性 管理 服务 管理 安全 服务 


描述 性 的 基于 逻辑 的 引擎 (例如 Pellet) 来 
开发 推理 控制 器 ， 以 确定 通过 推理 的 安全 违 
规 是 否 发 生 。 

总 之 ， 在 数据 管理 安全 的 各 个 方面 ，WS 以 及 语义 Web 技术 都 有 应 用 。 然 而 ， 数 据 
管理 技术 和 数据 挖掘 技术 也 可 以 应 用 于 在 网 络 上 的 管理 和 挖掘 数据 ， 以 方便 代理 理解 网 
页 。 图 7. 11 为 用 于 数据 管理 安全 的 WS。 


7.3.3 ”用 于 复杂 数据 管理 安全 的 Web 服务 


7.3.3.1 地 理 空间 数据 管理 安全 

我 们 大 部 分 的 讨论 都 受到 了 与 普 渡 大 学 的 贝尔 带 诺 教 授 和 加 利 福 尼 亚 大 学 戴 维 斯 分 
校 的 格 区 教授 ( 见 本 章 参考 文献 [BERTOS]) 合作 研究 的 影响 。 这 项 研究 也 受到 我 们 
早期 关于 安全 约束 处 理 和 保护 多 媒体 数据 的 研究 影响 ( 见 本 章 参 考 文献 [THUR95 ] , 
[THUR90] )。Atluri 也 对 地 理 空间 数据 管理 和 安全 ( 见 本 章 参 考 文献 [ ATLU04 ] 、 
[DAMI07]) 进行 了 一 些 有 意思 的 研究 。 

地 理 空间 数据 比 关 系数 据 更 复杂 。 例 如 ， 我 们 可 以 对 像素 进行 分 类 ， 并 对 构成 地 理 
空间 数据 的 点 和 线 进 行 分 类 。 我 们 也 可 以 根据 内 容 、 上 下 文 和 时 间 来 定义 策略 。 例 如 ， 
拍摄 的 位 置 和 图 像 组 合 起 来 可 以 归 类 ， 它 们 也 可 以 解除 归 类 ， 单 独 存在 。 此 外 ， 位 置 和 
图 像 可 以 在 特定 时 间 ， 或 直到 特定 时 间 进 行 归 类 ， 然 后 可 以 解除 分 类 。 例 如 ， 伊 拉克 接 
管 的 卫星 图 像 ， 可 以 从 图 像 被 捕获 之 日 起 六 个 月 内 进行 归 类 ， 并 在 此 之 后 取消 分 类 。 贝 
尔 带 诺 和 她 的 团队 已 经 制定 了 地 理 空间 数据 的 策略 语言 ， 和 一 个 他 们 称 之 为 基于 角色 的 
访问 控制 地 理 安全 模型 ， 该 模型 将 RBAC (Role - Based Access Control ， 基 于 角色 的 访问 
控制 ，RBAC) 与 地 理 空间 数据 进行 了 结合 。 
虽然 明确 需要 执行 地 理 空间 数据 的 保密 策略 ， 但 保证 隐私 仍然 是 一 个 挑战 。 保 护 地 
理 空间 数据 的 隐私 意味 着 什么 ? 今天 ， 我 们 有 能 力 进 行 监控 ， 也 可 以 在 Coogle Maps 中 
捕获 图 像 。 但 是 我 们 不 能 指望 我 们 的 房子 的 图 像 保 持 私密 ， 因 为 房子 的 图 像 就 在 那里 。 
不 过 ， 这 是 我 的 房子 的 事实 是 可 以 是 隐私 。 我 们 需要 研究 地 理 空间 数据 的 隐私 管理 问 
题 。 对 于 我 们 的 语义 Web 研究 ， 目 标 是 开发 地 理 空间 WS， 它 可 以 利用 表示 技术 (如 
GML 和 GRDF) ， 以 便 我 们 获得 机 器 可 理解 的 网 页 。 然 而 ， 为 了 确保 地 理 空间 语义 Web 
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图 7.11 用 于 数据 管理 安全 的 Web 服务 
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安全 
将 是 下 一 节 的 主题 。 图 7. 12 说 明了 地 理 空间 数据 管理 的 安全 性 。 























， 我 们 需要 将 地 理 空间 语义 Web 技术 与 安全 的 地 理 空 间 数据 管理 技术 相 结合 。 这 


地 理 空间 数据 可 以 是 流 的 形式 。 流 数据 的 安全 策略 是 什么 ? 与 地 理 空间 信息 系统 密 
切 相关 的 是 运动 着 的 数据 库 ， 数 据 不 在 一 个 地 方 。 数 据 持续 不 断 地 变化 ， 这 些 数 据 必须 
被 捕获 和 管理 。 地 理 空间 数据 可 能 有 各 种 来 源 ， 因 此 数据 必须 通过 网 络 和 其 他 方式 进行 
整合 。 信 息 集 成 存在 许多 安全 挑战 。 本 章 参 考 文献 [BERTO] 已 经 报道 了 这 方面 的 一 























些 工 作 。 
我 们 正在 制定 一 套 地 理 空间 信息 系统 策略 ， 
其 数据 表示 将 基于 0GC 开发 的 GML。 该 策略 将 地 理 空间 
查询 处 理 器 























包括 访问 控制 技术 ,例如 基于 角色 和 使 用 控制 ， 
以 及 信任 、 完 整 性 、 时 间 约 束 、 数 据 货币 、 数 据 
质量 和 数据 来 源 等 。 之 后 ， 我 们 要 设计 和 开发 安 a 
全 的 地 理 空间 WS， 展 示 与 安全 性 相关 的 互 操作 “| ”数据 管理 器 
性 。 我 们 将 通过 对 地 理 空间 信息 系统 推理 ， 来 检 























地 理 空间 
事务 处 理 器 





























查 安全 违规 。 例如， 已 经 开发 了 用 于 智能 数据 融 
合 的 推理 技术 。 这 种 技术 通过 融合 数据 ， 可 能 会 |o gene 
违反 安全 性 限制 。 我 们 正在 完善 提出 的 各 种 技 | 完事 性 管理 器 












































TR, 来 处 理 关 系数 据 的 安全 性 ， 以 达到 处 理 融 合 
图 像 的 安全 性 。 数 据 所 有 权 和 对 熏 利 能 力 的 需 
求 ， 要 求 组 织 保护 其 信息 库 。 当 组 织 域 由 不 只 文本 或 数字 等 数据 组 成 时 ， 

















图 7.12 地理 空间 数据 管理 安全 





技术 复杂 度 会 





增加 几 倍 。 一 个 地 理 空间 WS 的 实例 ， 它 满足 需要 信息 安全 性 的 查询 ， 其 超出 传统 
RBAC 机 制 的 水 平 。 保 护 地 理 空间 数据 需要 细 粒 度 的 访问 权限 ， 这 使 RBAC 成 为 一 个 非 
最 佳 的 解决 方案 。 我 们 的 目标 是 利用 通过 OWL 提供 的 公理 框架 ， 来 对 潜在 客户 定义 策 



































略 声明 ， 并 让 推理 机 做 内 务 处 理 。 





并 不 是 地 理 空间 机 构 拥 有 的 所 有 数据 都 被 自然 而 然 认为 是 公共 的 。 比 如 ， 这 些 数据 








可 能 包含 有 关 暴 露 信息 人 的 危险 信息 ， 这 将 危及 他 们 的 隐私 。 由 于 缺乏 统一 的 安全 框 
架 ， 数 据 集成 环境 中 的 问题 更 加 严重 。 如 果 数 据 集成 的 趋势 持续 发 展 ，WS 提供 商 将 很 




















快 执行 复杂 的 服务 ， 其 需要 将 地 理 空间 数据 藤 入 或 组 合 到 其 他 类 型 的 数据 中 。 然 而 ， 如 




















对 数据 的 质量 和 有 效 性 影响 很 大 ， 因 为 客户 只 获得 部 分 数据 。 





果 没 有 适当 的 安全 架构 在 工作 ， 数 据 交 换 中 心 会 不 情愿 地 、 随 意 地 提供 数据 。 反 过 来 ， 


我 们 区 分 了 在 WS 中 最 流行 的 两 种 安全 性 ， 并 形成 了 语义 WS 架构 的 基础 。 第 一 类 





来 处 理 WS 用 户 的 一 般 授权 过 程 ， 以 及 超 线程 安全 标准 的 任何 后 续 执行 。 
安全 性 的 当前 标准 化 协议 集 ， 包 括 加 密 方法 、 数 字 签名 验证 、 证 书生 成 




















针对 这 种 数据 
和 交换 、WS 安 





全 交换 等 。 第 二 类 涉及 组 织 对 数据 的 保护 ， 这 些 数据 可 能 来 自 入 侵 者 或 没有 适当 的 访问 
权限 的 正当 客户 。 在 这 方面 使 用 最 广泛 的 防御 机 制 是 各 种 形式 的 访问 控制 语言 。 我 们 正 





在 开发 一 种 语义 丰富 的 、 基 于 本 体 的 访问 控制 解决 方案 ， 其 用 于 地 理 空 | 
全 球 地 理 空 间 数据 集成 的 激增 产生 有 利 影 响 。 
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司 数据 ， 可 以 对 
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在 应 用 层 ， 地 理 空间 数据 的 安全 性 可 以 划分 为 不 同 的 逻辑 段 。 我 们 的 工作 集中 在 客 
户 或 其 他 WS 安全 访问 地 理 空间 资源 ， 尤 其 在 动态 组 合 的 背景 下 。 根 据 语义 Web HE 
景 ， 我 们 正在 用 一 种 语言 开发 模块 化 的 访问 控制 ， 使 得 推理 认证 执行 引擎 的 发 展 成 为 可 
能 。 与 基于 XML 的 标准 和 基于 逻辑 的 访问 控制 相反 ， 我 们 对 OWL - DL 中 的 公理 进行 
了 定义 ， 并 强调 了 对 策略 的 复 用 。 根 据 以 往 以 策略 为 中 心 的 访问 控制 语言 的 实验 ， 已 经 
发 现 ， 对 以 个 人 为 基础 的 资源 定义 策略 ， 不 太 适合 于 集成 的 CIS 应 用 。 如 果 允 许 细 粒度 
的 资源 访问 ， 它 将 在 决策 或 执行 模块 导航 的 策略 文件 中 聚合 策略 ， 从 而 使 整体 查询 的 处 















































理 时 间 变 得 简短 。 我 们 的 架构 如 图 7. 13 所 示 。 
bk 
Bob DAGIS 接 口 
nz li 




















图 7.13 安全 DAGIS 架构 





为 了 缩短 策略 的 决策 时 间 ， 我 们 的 访问 控制 语言 将 所 声明 的 规则 集合 作为 一 个 独立 
的 单元 。 然 后 ， 客 户 身 份 可 以 链接 到 适用 于 客户 的 规则 。 通 过 引用 它们 来 模块 化 使 用 策 
略 ， 其 可 以 最 大 限度 地 减少 规则 重复 。 另 一 个 重要 的 特征 ， 是 规则 导航 从 策略 向 客户 身 
份 转移 。 我 们 框架 中 的 地 理 空间 语义 Web 服务 代理 接受 已 有 身份 或 匿名 的 用 户 。 

为 了 开发 安全 的 地 理 空间 语义 Web， 我 们 需要 在 整个 语义 Web 技术 框架 中 整合 安 
全 性 。0GC 等 组 织 正 研究 在 GML 中 制定 的 安全 声明 。 此 外 ，OASIS 等 组 织 正在 开发 
GEO -XACML。 我们 正在 开发 在 GRDF 中 制定 的 安全 性 声明 ， 我 们 称 之 为 Secure 
GRDF。 我 们 的 重点 是 将 安全 的 DAGIS 框架 扩展 到 安全 的 地 理 空间 语义 Web H, DAGIS 
还 具有 基于 GRDF 的 响应 组 件 ， 并 且 可 以 推理 安全 策略 。 
7.3.3.2 安全 的 多 媒体 数据 管理 

安全 的 多 媒体 数据 管理 的 功能 包括 安全 查询 处 理 和 安全 存储 管理 。 这 些 功能 可 能 是 
由 WS 提供 支持 。 考 虑 到 查询 操作 。 查 询 WS 将 检查 访问 控制 规则 和 安全 约束 ， 并 相应 
地 修改 查询 。 例 如 ， 如 果 操 作 X 存在 被 分 类 的 事实 ， 则 该 查询 不 能 被 发 送 到 未 分 类 的 
多 媒体 数据 收集 器 ， 诸 如 视频 摄像 机 之 类 ， 以 拍摄 事件 。 类 似 地 ， 更 新 的 处 理 器 还 检查 
访问 控制 规则 ， 并 计算 要 插入 或 修改 的 多 媒体 数据 的 级 别 。 安 全 性 也 对 多 媒体 编辑 和 浏 
览 产生 了 影响 。 当 浏览 多 媒体 数据 时 ， 系 统 必须 确保 用 户 具有 正确 的 访问 权限 ， 以 浏览 
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链接 或 访问 与 链接 相关 联 的 数据 。 在 多 媒体 编辑 的 情况 下 ， 当 将 不 同 级 别 的 对 象 组 合 起 
可 能 需要 对 各 种 帧 进行 分 类 ， 或 者 分 
配 高 级 水 印 ， 这 种 水 印 与 构成 影片 的 各 个 对 象 的 级 别 相关 联 。 此 外 ， 当 编辑 电影 CDU 
如 删除 电影 的 某 些 部 分 ) 时 ， 需 要 重新 计算 编辑 对 象 的 级 别 。 

接 下 来 ， 考 虑 作为 Web 服务 实现 的 存储 管理 器 功能 。 存 储 服务 必须 控制 对 多 媒体 
数据 库 的 访问 是 安全 的 。 存 储 管理 器 还 负责 根据 安全 级 别 划分 数据 。 目 前 ， 对 多 媒体 数 
据 的 访问 方法 和 索引 策略 的 安全 影响 尚未 确定 。 而 现在 ， 为 多 媒体 数据 已 经 开发 了 许多 
索引 策略 ， 包 括 文本 、 图 像 、 音 频 和 视频 。 所 以 ， 我 们 需要 检查 策略 并 确定 安全 性 的 影 
响 。 另 一 个 问题 是 多 媒体 数据 的 存储 和 显示 之 间 的 同步 。 例 如 ， 我 们 需要 确保 视频 流畅 
显示 ， 并 且 没 有 流量 突 发 情况 。 这 里 可 能 存在 恶意 程序 操纵 存储 和 显示 管理 器 ， 从 而 将 
言 息 从 较 高 级 别 的 进程 隐藏 地 传递 到 较 低 级 别 的 进程 。 


来 形成 电影 时 ， 必 须 相应 地 对 电影 对 象 进行 





























7.3.4 信息 管理 的 安全 Web 服务 


分 类 。 



































如 数据 管理 一 样 ， 诸 如 XML，RDF 和 OWL 之 类 的 语义 Web 技术 可 用 于 表示 数据 仓 
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库 、 信 息 检索 流 和 数字 图 书馆 的 安全 策略 ， 包 括 机 密 性 、 隐 私 性 和 信任 策略 。 此 外 ， 基 
于 例如 Pellet 的 描述 性 逻辑 的 推理 引擎 ， 可 以 用 于 通过 对 数据 仓库 以 及 信息 检索 系统 的 
车 论 ， 来 推断 未 经 授权 的 结论 。 语 义 Web 技术 也 可 用 于 表示 非 文本 数据 。 例 如 ， 同 步 








多 媒体 集成 语言 (Synchronized Multimedia Integration Language, SMIL) 是 视频 的 标记 语 





A, M VoiceML 是 音频 数据 的 标记 语言 。 访 问 控 




















挖掘 技术 不 仅 可 以 应 用 于 关系 数据 库 ， 还 可 以 应 用 于 文本 、 语 














央 策 略 可 以 用 例如 XML, RDF 或 更 具 
描述 性 的 语言 (W REI) 制定 ， 他 们 可 以 在 SMIL 中 表示 的 视频 数据 上 强制 执行 。 数 据 





音 、 视 频 和 音频 数据 库 以 





及 数字 图 书馆 。 使 用 数据 挖掘 ， 也 存在 隐私 和 安全 问题 。 例 如 ， 数 据 挖掘 可 以 推断 敏感 
关联 。 因 此 ， 基 于 隐私 保护 的 数据 挖掘 不 仅 在 关系 数据 库 上 ， 而 且 在 XML, RDF 和 








OWL 数据 上 仍然 是 一 个 挑战 。 





WS 在 安全 信息 管理 中 有 所 应 用 ， 包 括 数 据 
仓库 安全 、 数 据 挖掘 安全、 信息 检 索 安 全 和 数字 














图 书馆 安全 管理 。 例 如 ， 可 以 将 数据 仓库 安全 管 


理 作 为 Web 服务 来 调用 。 仓 库 安 全 管理 员 服务 提 





























供 











新 将 向 目录 注册 其 服务 。 请 求 仓库 服务 的 用 户 


将 调用 适当 的 服务 。 图 7. 14 为 用 于 信息 管理 的 安 








全 WS 和 语义 Web。 
7.3.5 知识 管理 的 安全 Web 服务 























安全 的 数字 安全 的 多 
图 书馆 服务 媒体 服务 
安全 的 数据 安全 的 协作 
仓库 服 务 安全 的 协作 服务 
安全 的 信息 安全 的 数据 
EMS 安全 的 数据 挖掘 











在 前 面 的 章节 中 ， 我 们 讨论 了 WS SA 





MRE 





























理 之 间 的 关系 。 也 就 是 说 ， 可 以 将 知识 管理 服务 图 7. 14 用 于 信息 管理 的 安全 Web 服务 


作为 WS 提供 ， 例 如 查找 专家 并 共享 演示 


文稿 。 


安全 的 知识 管理 包括 对 知识 管理 实施 适当 的 安全 模型 。 例 如 ， 已 经 提出 了 用 于 知识 管理 
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安全 的 各 种 访问 控制 模型 和 信息 共享 模型 。 这 些 安全 服务 可 以 作为 安全 WS 提供 。 
语义 Web 技术 为 了 知识 管理 在 推理 知识 的 同时 ， 也 可 以 推理 安全 策略 ， 从 而 可 以 
防止 未 经 授权 的 推理 。 关 于 安全 性 ， 在 7.2.5 节 沃 伦 所 讨论 的 例子 中 ,保密 性 、 隐 私 权 























和 信任 策略 将 确定 多 大 程度 上 Sally 信任 这 些 文献 ， 并 且 可 以 使 用 








关于 托尼 布莱尔 的 演讲 报告 。 图 7. 15 说 明了 知识 管理 安全 与 语 


安全 的 知识 
管理 服务 


安全 的 专家 
搜索 服务 









安全 的 知识 
产权 管理 服务 





图 7.15 用 于 安全 知识 管理 的 Web 服务 





7.3.6 活动 管理 的 安全 Web 服务 


安全 的 业务 


流程 管 





这 些 文献 来 组 织 她 的 
义 Web 之 间 的 关系 。 







理 服 务 


图 7. 16 为 用 于 活动 管理 的 安全 WS。 我 们 将 在 以 下 部 分 中 分 别 讨论 每 个 活动 〈 例 





如 ， 安 全 电子 商务 、 安 全 协作 和 安全 信息 共享 ) 。 
7. 3.6.1 安全 电子 商务 








ieget dee EIU 织 开 展 的 业务 交 | ”安全 的 电子 
如 前 所 述 ， 电 子 商 务 是 关于 组 织 开 展 的 业务 交 prs 


易 ， 如 销售 商品 和 商业 协议 ， 以 及 消费 者 以 电子 方 
式 从 商家 购买 商品 。 电 子 商 务 方面 有 许多 发 展 ， 其 
初步 的 进展 在 本 章 参 考 文献 [THUROO] 里 讨论 过 。 























安全 的 信息 





由 于 电子 商务 可 能 涉及 企业 之 间 数 百 万 美元 的 商业 | 互 操作 性 服务 














交易 ， 或 者 消费 者 和 企业 之 间 的 信用 卡 购 买 交易 ， 
电子 商务 系统 的 安全 是 非常 重要 的 。 这 种 电子 商务 
系统 的 示例 包括 电子 支付 系统 和 供应 链 管理 系统 。 安全 的 人 

Ghosh 和 Atallah 已 经 开展 了 一 些 关于 安全 电子 | SERA 
商务 以 及 安全 供应 链 管理 的 工作 (例如 ， 本 章 参 考 
















































































安全 的 协作 服务 


安全 的 社 
交 网 络 服务 








于 活动 管理 的 安全 











文献 [GHOS98] 和 [ATAL03])。 在 电子 支付 系统 ” 图 7.16 
的 情况 下 ， 其 挑战 包括 消费 者 和 企业 的 识别 和 认 


Web 服务 





证 ， 以 及 追踪 消费 者 的 购买 行为 。 例 如 ， 人 们 完全 可 以 伪装 成 消费 者 ， 使 用 消费 者 的 信 
用 卡 并 以 电子 方式 进行 购买 。 因 此 ， 提 出 的 一 个 解决 方案 是 让 消费 者 在 进行 某 些 购买 时 
获得 一 些 凭 证。 这 些 赁 证 可 能 是 一 组 随机 数 ， 每 次 购买 都 会 有 所 不 同 。 这 样 一 来 ， 伪 装 




















成 消费 者 的 恶意 进程 可 能 没有 对 应 赁 证， 因此 可 能 无 法 进行 购买 。 





将 是 一 个 问题 。 我 们 正在 为 安全 的 电子 商务 提出 各 种 加 密 技 术 





如 果 和 凭证 也 被 盗 ， 这 
(参见 本 章 参 考 文献 








[HASS00]) 。 也 就 是 说 ， 除 了 拥有 凭证 之 外 ， 信 息 可 以 用 商家 的 公 钥 加 密 ， 并 且 只 
商家 才 可 以 获得 实际 的 数据 。 类 似 地 ， 商 家 和 消费 者 之 间 的 通信 也 被 加 密 。 当 商家 之 间 
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进行 交易 时 ， 有 关 各 方 必须 拥有 一 定 的 凭证 ， 以 便 交易 得 到 安全 的 执行 。 请 注意 ， 虽然 
电子 商务 交易 和 安全 电子 商务 交易 取得 了 很 大 进展 ,但 将 电子 商务 安全 数据 库 交易 管理 
技术 融入 到 电子 商务 尚未 成 熟 。 本 章 参 考 文献 [ RAYOO] 已 经 报道 了 一 些 这 方面 的 
工作 3 

7.3.6.2 供应 链 管理 安全 

安全 的 供应 链 管理 也 是 电子 商务 安全 的 重要 方面 。 这 里 供应 链 指 的 是 让 组 织 为 其 他 
公司 提供 相关 部 件 ， 以 达到 制造 或 其 他 用 途 。 假 设 医 院 想 从 公司 订购 手术 器 械 ， 那 么 医 
院 和 公司 之 间 必 须 有 一 些 谈判 和 协议 。 公 司 X 可 以 从 另 一 家 公司 Y 请 求 部 分 零件 ， 并 
且 可 能 不 想 透 露 其 正在 为 医院 A 制造 部 件 的 信息 。 这 种 敏感 信息 必须 受到 保护 。 供 应 
链 管理 在 许多 领域 的 制造 方面 很 有 有用， 包括 医疗 、 国 防 和 情报 。 组 织 之 间 交 流 的 一 些 信 
息 可 能 非常 敏感 ， 特 别 是 在 军事 和 情报 应 用 方面 。 因 此 ， 需 要 有 一 种 保护 这 种 敏感 信息 
的 方法 。 由 于 交易 是 在 网 络 上 执行 的 ， 所 以 正在 提出 访问 控制 规则 和 加 密 技术 的 组 合 ， 
让 其 作为 保护 供应 链 管 理 敏 感 信息 的 解决 方案 。 

自从 20 世纪 90 年 代 中 期 以 来 ， 我 们 一 直 在 听 到 电子 商务 这 个 词 ， 这 是 由 于 网 络 的 
爆炸 式 增长 。 虽 然 我 们 在 开发 信息 技术 方面 取得 了 很 大 进展 ， 例 如 数据 库 、 数 据 挖 掘 和 
电子 商务 多 媒体 信息 管理 等 ， 但 安全 性 还 有 很 多 工作 要 做 。 此 外 ， 有 关 各 种 的 个 人 信息 
也 必须 保密 。 我 们 在 本 书 中 讨论 过 的 许多 安全 技术 ， 包 括 安 全 的 Web 数据 管理 和 安全 
的 语义 Web， 将 适用 于 安全 的 电子 商务 。 例 如 ， 语 义 Web 可 以 用 作 执 行 电子 商务 功能 
的 工具 。 通 过 开发 机 器 可 理解 的 网 页 ， 电 子 商务 可 以 自动 化 ， 而 不 需要 人 的 重复 工作 。 
这 意味 着 语义 Web 的 安全 是 至 关 重 要 的 。 随 着 我 们 在 安全 的 网 络 信 息 管理 技术 方面 取 
得 进展 ， 我 们 可 以 大 大 提高 电子 商务 的 安全 性 。 电 子 商 务 应 用 程序 可 能 被 作为 WS 
调用 。 
7.3.6.3 安全 工作 流 和 协作 

如 前 所 述 ， 协 作 技 术 对 于 作为 组 织 之 间 相 互 的 电子 商务 来 说 是 重要 的 。 工 作 流 是 关 
于 从 开始 到 结束 执行 ， 诸 如 进行 购买 等 操作 的 过 程 。 这 些 步 又 包括 启动 协议 、 转 移 资金 
并 将 货物 发 送 给 消费 者 。 因 为 协作 和 工作 流 是 许多 业务 的 一 部 分 ， 如 电子 商务 和 知识 管 
理 ， 所 以 我 们 需要 安全 的 工作 流 和 安全 的 协作 。 贝 尔 带 诺 等 人 已 经 做 了 很 多 工作 。 关 于 
这 个 话题 ， 最 显著 的 发 展 是 适用 于 安全 的 工作 流 管理 系统 的 BFA 模式 ( 见 本 章 参 考 文 
HR [BERT99 ] ) 。 最 初 在 本 章 参 考 文献 [DEMU93] 中 提出 了 一 些 关于 安全 协作 系统 的 
工作 。 此 后 ， 我 们 开发 了 几 个 方案 (参见 IFIP 会 议 系列 关于 数据 库 安 全 部 分 ) 。 在 本 节 
中 ， 我 们 将 进行 安全 工作 流 和 协作 的 概述 。 

在 安全 的 工作 流 管理 系统 中 ， 这 个 想法 是 让 用 户 拥 有 正确 的 凭证 来 执行 特定 的 任 
务 。 例 如 ， 在 进行 项 目 购买 时 ， 只 有 项 目 负 责 人 可 以 发 起 请 求 ， 秘 书 然后 键入 请 求 ， 之 
后 管理 员 必 须 使 用 他 /她 的 信用 卡 进行 购买 ， 邮 箱 也 有 权 完 成 交付 。 本 质 上 来 说 ,我 们 
所 提出 的 是 一 个 面向 安全 工作 流 的 基于 角色 的 访问 控制 模型 。 关 于 这 个 有 了 一 些 发 展 
(JL SACMAT 会 议 记 录 ) ， 已 经 对 安全 工作 流 系 统 进行 了 各 种 技术 的 研究 ， 如 Petri 网 
见 本 章 参考 文献 [ HUAN98 ] ) 。 
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与 安全 工作 流 密切 相关 的 是 协作 安全 。 协 作 的 概念 比 工作 流 要 广泛 得 多 。 工 作 流 是 
为 了 执行 任务 ， 而 必须 进行 的 一 系列 串 行 或 并 行 操作 ， 协 作 是 关于 多 个 个 体 一 起 工作 来 
解决 问题 的 。 一 般 的 对 象 技术 和 特有 的 分 布 式 对 象 管理 技术 正在 被 用 于 开发 协作 系统 。 
在 这 里 ， 环 境 中 的 个 人 和 资源 被 建 模 为 对 象 。 个 人 和 资源 之 间 的 通信 被 建 模 为 对 象 之 间 
的 通信 。 通 过 对 象 请 求 代理 进行 通信 。 因 此 ， 为 了 安全 的 协作 ， 针 对 对 象 请 求 代理 商 ， 
要 讨论 一 些 安全 问题 。 例 如 ， 所 有 相关 各 方 是 否 应 该 获得 访问 资源 的 相同 权限 ”如 果 访 
问 资源 权限 不 同 ， 那 么 个 人 间 如 何 共同 协作 共享 数据 呢 ? 

工作 流 和 协作 是 关于 组 织 或 团体 共同 工作 努力 实现 目标 ， 如 设计 系统 或 解决 问题 。 
协作 技术 对 于 作为 组 织 之 间 相 互 的 电子 商务 来 说 是 重要 的 。 

信任 和 协商 系统 也 在 工作 流 和 协作 系统 中 发 挥 重要 作用 。 例 如 ， 各 方 如 何 相互 信任 
来 解决 问题 ? 如 果 A 给 B 一 些 信息 ， 且 A AIC 不 相互 通信 ，B 可 以 与 C 共享 信息 吗 ? 
当 我 们 讨论 安全 联盟 时 ， 也 提出 了 类 似 的 问题 。 此 外 ， 数 据 管理 安全 技术 对 于 管理 工作 
流 和 协作 应 用 程序 的 数据 是 必要 的 。 虽 然 在 这 方面 ， 取 得 了 很 大 进展 ， 但 还 是 有 很 多 事 
情 要 做 ， 特 别 是 对 于 语义 Web 和 新 兴 技 术 的 发 展 ， 如 对 等 数据 管理 。 

在 第 5 章 中 ， 我 们 讨论 了 复杂 活动 的 WS， 如 工作 流程 、 编 排 和 编 配 。 此 类 活动 的 
安全 性 处 于 起 步 阶 段 。 例 如 ， 调 用 组 成 工作 流程 应 用 程序 的 WS 中 的 安全 问题 是 什么 ? 
编排 和 编 配 的 安全 问题 是 什么 ? WS 组 合 的 安全 问题 是 什么 ? 
7.3.6.3.1 信息 互 操作 性 安全 

在 整合 信息 方面 有 几 个 难题 ， 特 别 是 在 异 构 环 境 中 。 一 个 是 架构 异 质 性 ， 其 中 系统 A 
基于 关系 系统 ， 而 系统 B 基于 对 象 系统 。 也 就 是 说 ， 当 两 个 系统 基于 不 同 的 模型 时 ， 我 们 
需要 解决 这 个 问题 。 一 种 选项 是 拥有 一 个 共同 的 数据 模型 。 这 意味 着 两 个 系统 的 构造 必须 
被 转换 成 公共 数据 模型 的 构造 。 当 我 们 考虑 安全 属性 时 ， 我 们 必须 维护 各 个 系统 ， 确 保 策 
略 得 到 执行 。 为 了 联合 数据 库 系 统 的 安全 ， 多 个 模式 被 集成 ， 以 形成 联合 模式 。 实 际 上 ， 
我 们 采用 了 谢恩 和 拉 森 的 架构 来 实现 安全 的 联合 环境 。 本 章 参考 文献 [THUR94] 中 讨论 
了 集成 异 构 模 式 时 的 一 些 安全 挑战 。 我 们 假设 每 个 组 件 将 一 个 模式 导出 到 联盟 中 。 然 后 ， 
这 些 模式 被 集成 以 形成 联合 策略 。 在 安全 的 环境 中 ， 我 们 需要 确保 在 整个 联盟 中 维护 各 个 
系统 的 安全 属性 。 在 下 一 节 中 ， 我 们 将 讨论 安全 策略 集成 问题 。 

下 面 ， 我 们 将 重点 关注 策略 整合 。 本 章 参 考 文献 [THUR94] 报道 了 对 于 联合 数据 
库 的 安全 策略 整合 的 初步 调查 。 在 此 ， 我 们 假设 异 构 数据 库 系统 必须 被 集成 ， 以 形成 安 
全 的 联合 数据 库 系统 。 对 于 模式 集成 ， 我 们 的 方法 非常 类 似 于 谢恩 和 拉 森 ( 见 本 章 参 
考 文献 [SHET90] ) 。 在 策略 集成 的 情况 下 ， 每 个 系统 将 安全 策略 导出 到 联合 体 。 我 们 
假设 组 件 系统 对 外 部 用 户 有 更 严格 的 访问 控制 要 求 。 也 就 是 说 ， 导 出 策略 除了 本 地 系统 
执行 的 规则 之 外 ， 还 可 能 具有 访问 控制 规则 。 这 里 的 挑战 是 要 确保 在 联合 体 层面 没有 安 
全 违规 。 

当 实 体 在 不 同 的 位 置 被 解释 不 同 ， 或 者 不 同 的 实体 被 解释 为 相同 的 对 象 时 ， 会 发 生 
语义 异 质 性 。 例 如 ， 术语 “速度 ”可 以 在 节点 1 中 以 mile/h 为 单位 ， 在 节点 2 中 可 以 
是 km /天 。 男 一 个 例子 是 约翰 . 史密斯 ， 在 节点 1， 他 是 约翰 .史密斯 (John Smith), 
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在 节点 2， 他 却 是 约翰 . K- 史密斯 (John K Smith) 。 在 这 两 种 情况 下 ， 相 同 的 实体 但 
解释 是 不 同 的 。 另 一 方面 ， 节 点 1 的 约 输 . 史密斯 可 以 是 真 的 约翰 . J- 史密斯 ， 在 节 
点 2 他 是 约翰 . Kk. 史密斯 。 他 们 是 不 同 的 人 ,但 却 错 误 地 认为 是 相同 的 。 

语义 异 质 性 是 数据 集成 和 信息 互 操作 性 的 主要 挑战 之 一 。 它 们 不 仅 发 生 在 关系 数据 
库 中 ， 还 发 生 在 对 象 数 据 库 、 多 媒体 数据 库 甚至 地 理 空间 数据 库 中 。 例 如 ， 当 异 构 地 理 
空间 数据 库 被 集成 时 ， 每 个 数据 库 可 以 用 不 同 的 方法 来 表示 相同 的 坐标 系 。 自 20 世纪 
90 年 代 以 来 ， 已 经 提出 了 用 于 处 理 异 构 性 的 各 种 解决 方案 ， 然 而 只 是 最 近 我 们 使 用 语 
X Web 技术 ， 才 对 该 问题 有 了 很 好 的 处 理 。 


可 以 调用 WS 来 集成 异 构 数据 = = 

库 。 也 就 是 说 ， 代 表 用 户 的 代理 可 PET ne 

以 调用 Web 服务 进行 集成 。 该 Web 人 
服务 可 以 利用 本 体 来 处 理 语义 异 质 

性 来 执行 操作 。 因 此 ， 为 了 拥有 安 | CMM | zanan zaya 
全 的 信息 互 操作 性 ， 我 们 需要 一 个 


安全 的 WS。 对 WS 的 信息 互 操 作 性 


安全 的 研究 刚刚 开始 ， 这 些 研究 包 
括 具 有 隐私 保护 的 本 体 一 致 性 和 


WS 的 安全 策略 集成 。 图 7. 17 说 明 图 7.17 用 于 安全 信息 互 操作 性 的 Web 服务 
Y WS 的 信息 互 操作 性 安全 包括 的 
各 个 方面 。 
7.3.6.3.2 确保 (安全 的 ) 信息 共享 

确保 (安全 的 ) 信息 共享 (AS) 是 关于 组 织 之 间 共 享 信息 ， 但 同时 执行 策略 和 程 
序 ， 以 便 对 数据 进行 集成 和 挖掘 来 提取 有 用 信息 。 例 如 ， 必 须 整合 来 自 多 个 安全 级 别 的 
各 种 数据 源 ， 以 及 来 自 不 同 的 服务 机 构 〈 包 括 空 军 、 海 军 、 陆 军 、 地 方 、 州 和 联邦 机 
FJ) 的 数据 ， 以 便 控 掘 数据 ， 提 取 模 式 和 信息 ， 确 定 关系 和 做 出 决定 。 数 据 库 包括 许 
多 种 类 ， 例 如 含有 有 关 军 事 战 略 信息 的 军事 数据 库 、 含 有 潜在 恐怖 分 子 信 息 的 情报 数据 
库 及 其 攻击 模式 ， 以 及 含有 相关 传染 病 和 累积 信息 的 医学 数据 库 。 数 据 可 以 是 结构 化 的 
或 非 结 构 化 的 ， 包 括 地 理 空间 /多 媒体 数据 。 数 据 还 需要 在 医疗 机 构 之 间 共 享 ， 如 医生 、 
医院 和 药店 。 除 非 数 据 整 合并 形成 一 张大 图 ， 和 否则 ， 向 所 有 相关 方面 通知 发 生 的 事件 将 
会 很 困难 。 虽 然 不 同 的 机 构 必须 共享 数据 和 信息 ， 但 他 们 还 需要 执行 适当 的 安全 性 和 完 
整 性 策略 ， 以 便 数据 不 会 被 未 经 授权 的 个 人 掌握 。 实 际 上 ， 代 理 间 必须 共享 信息 ， 同 时 
要 保持 安全 性 和 完整 性 。 联 盟 由 一 系列 组 织 组 成 ， 可 以 是 在 对 等 环境 中 共同 努力 解决 诸 
如 情报 和 军事 行动 以 及 医疗 保健 行动 等 问题 的 机 构 、 大 学 和 企业 。 联 盟 通常 是 动态 的 。 
也 就 是 说 ， 会 员 可 以 按照 政策 和 程序 加 入 联盟 。 确 保 联盟 的 安全 运作 是 一 项 挑战 。 我 们 
认为 ， 联盟 的 成 员 也 称 其 为 合作 伙伴 ， 可 能 是 值得 信赖 的 、 不 可 信 的 或 部 分 ( 半 ) fü 
得 信赖 的 。 马 克 尔 报告 ( 见 本 章 参 考 文献 [MARKO3]) 中 讨论 了 联盟 数据 共享 的 各 个 
方面 。 
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与 此 同时 ,我 们 迫切 需要 多 个 组 织 共享 数据 ， 同 时 执行 安全 策略 。 这 些 策略 包括 保 
密 、 隐 私 和 信任 策略 。 例 如 ， 患 者 数据 可 能 由 多 个 组 织 共 享 ， 包 括 医院 、 各 级 政府 和 机 
构 。 保 护 患 者 数据 的 隐私 很 重要 。 然 而 ， 同 样 重要 的 是 ， 要 去 掉 不 必要 的 访问 控制 ， 其 
会 导致 禁止 信息 的 共享 。 人 们 需要 灵活 的 策略 ， 以 便 在 紧急 情况 下 ， 所 有 的 数据 都 是 共 
享 的 ， 这 可 以 让 人 们 做 出 有 效 的 决定 。 在 正常 运作 中 ， 保 持 机 密 和 隐私 是 重要 的 。 此 
外 ， 信 任 策略 确保 数据 在 受信 任 的 个 人 之 间 共 享 。 在 该 领域 的 标准 包括 RBAC ( 见 本 章 
参考 文献 [SAND96]) 以 及 P3P (隐私 偏好 保护 平台 ，Platform for Privacy Preferences) 。 

存在 两 种 类 型 的 矛盾 : 一 种 是 安全 性 与 数据 共享 。 数 据 共享 的 目标 是 为 组 织 尽 可 能 
多 地 共享 数据 ， 以 便 数据 被 按 掘 并 获得 关键 信息 。 但 是 ， 当 执行 安全 策略 时 ， 并 不 是 所 
有 的 数据 都 被 共享 。 另 一 种 矛盾 的 类 型 是 在 实时 处 理 和 安全 之 间 。 作 战 人 员 需 在 恰当 的 
时 间 得 到 信息 。 即 使 哪怕 晚 Smin， 信 息 可 能 都 没有 用 了 。 这 意味 着 如 果 要 执行 各 种 安 
全 检查 ， 那 么 信息 可 能 无 法 及 时 到 达 作 战 人 员 手 中 。 

WS 在 信息 共享 中 发 挥 重要 作用 。 例 如 ， 组 织 A 可 以 调用 Web 服务 以 从 另 一 个 组 织 B 
中 获取 信息 。 该 Web 服务 可 以 调用 另 一 个 Web 服务 ， 来 确定 组 织 B 共享 信息 的 诱因 是 什 
4, fr AIS 的 情况 下 ， 组 织 B 还 可 以 检查 安全 策略 ， 以 确定 信息 是 否 可 以 共享 。 我 们 正在 
建立 AIS 生命 周期 ， 面 向 服务 的 架构 是 我 们 方法 的 核心 内 容 ， 细 节 将 在 附录 D 中 讨论 。 
7.3.6.3.3 社交 网 络 安全 

社交 网 络 近年 来 爆炸 式 增长 。 我 们 现在 有 Facebook, Friendster 和 Twitter 等 。 目 前 
社交 网 络 数据 正在 被 挖掘 ， 从 而 提取 有 用 的 信息 ， 和 向 会 员 提 供 更 好 的 服务 。 此 外 ， 采 
集 的 信息 也 可 用 于 帮助 反 狼 和 执法 。 与 此 同时 ， 保 护 合法 公民 的 隐私 也 十 分 重要 。 

最 近 人 们 对 保护 社交 网 络 以 及 社交 网 络 开发 隐私 保护 技术 方面 很 感 兴趣 。 例 如 ， 会 
员 如 何在 隐私 得 到 确保 的 前 提 下 ， 透 露 正确 的 信息 量 ? 系统 是 否 会 向 会 员 提供 一 些 反 
tt, 说 明 其 透露 了 太 多 的 信息 ?也 许可 以 调用 WS 来 管理 社交 网 络 。 例 如 ,会员 可 以 调 
用 Web 服务 在 网 络 上 发 布 信息 。 当 然 ， 这 些 WS 必须 确保 适当 的 安全 和 隐私 策略 。 
7.3.6.3.4 供应 链 管理 安全 
供应 链 管理 和 物流 的 安全 性 受到 很 大 的 关注 。 在 物流 方面 ， 一 个 主要 目标 是 物体 的 
安全 移动 。 当 物品 必须 从 位 置 A 移动 到 B 时 ， 物 品 必 须 在 物理 上 和 数字 上 都 被 保护 。 
RFID 技术 正在 用 于 跟踪 物流 和 供应 链 管理 的 对 象 。 因 此 ， 安 全 的 RFID 技术 至 关 重 要 。 
在 供应 链 方面 ， 还 需 考虑 其 他 的 安全 。 例 如 ， 可 以 使 用 几 个 组 件 来 制造 产品 。 这 些 
组 件 可 能 来 自 世 界 各 地 ， 可 能 会 有 安全 影响 。 即 使 组 件 可 能 受到 威胁 ， 但 仍然 需要 保证 
产品 是 安全 的 。 这 是 一 个 非常 具有 挑战 性 的 问题 。 如 7. 2 节 所 述 ， 可 以 调用 WS 来 执行 
供应 链 管理 以 及 物流 业务 。 这 些 WS 必须 是 安全 的 ， 以 确保 供应 链 管理 安全 。 
7.3.7 安全 的 领域 Web 服务 
7.3.7.1 防御 
防 部 正在 使 用 服务 技术 和 基于 面向 服务 的 架构 模式 的 全 球 信 息 网 格 。 但 其 许多 发 
展 受到 XML 和 本 体 的 影响 。 正 如 我 们 所 说 ，WS 也 在 国土 安全 应 用 中 发 挥 着 重要 作用 。 
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对 于 许多 领域 的 应 用 程序 ， 重 点 是 实施 基于 XACML 安全 标准 的 带 有 属性 的 访问 控制 。 
其 目标 是 让 用 户 展示 他 /她 的 凭证 并 请 求 资 源 。 然 后 ， 基 于 被 执行 的 策略 和 用 户 的 凭证 ， 
系统 将 决定 用 户 是 否 可 以 访问 资源 。 这 实际 上 是 策略 决策 点 的 功能 。 随 后 ， 策 略 执行 点 
将 强制 执行 访问 请 求 。 
7.3.7.2 医疗 保健 和 生命 周期 

如 前 所 述 ， 语 义 Web 技术 在 医疗 保健 信息 技术 的 发 展 中 发 挥 了 重要 作用 。 例 如 ， 
我 们 已 经 为 电子 医疗 保健 记录 以 及 生命 科学 中 的 几 个 项 目 开 发 了 本 体 。 医 疗 信息 系统 的 
主要 安全 挑战 ， 是 涉及 隐私 问题 ， 其 目标 是 确保 患者 信息 记录 的 隐私 性 。 通 常 ， 患 者 要 
确定 在 什么 条 件 下 要 保护 哪些 信息 。 当 一 个 组 织 需 要 有 关 患 者 的 数据 时 ， 要 制定 相关 策 
略 。 如 果 策 略 与 病人 所 指定 的 一 致 ， 那 么 这 些 信息 就 会 发 布 给 组 织 。 可 以 使 用 诸如 P3P 
之 类 的 W3C 标准 来 确保 隐私 安全 。 此 外 ， 整 个 操作 可 以 作为 WS 来 实现 。 
7.3.7.3 金融 
由 于 金融 领域 涉及 金钱 ， 因 此 机 密 性 对 于 金融 数据 至 关 重 要 。 尽 管 由 于 患者 隐私 的 
缘故 ， 从 而 难以 获得 医疗 保健 数据 ， 但 我 们 发 现 ， 几 乎 更 不 可 能 获得 如 信用 卡 数据 这 样 
的 财务 数据 去 进行 研究 。 几 个 小 组 正在 为 金融 领域 开发 WS 和 语义 Web 技术 。 正 如 我 们 
所 说 的 ， 马 德里 的 小 组 对 应 用 语义 “基于 本 体 的 平台 ”做 了 一 些 非常 好 的 研究 ， 该 平 
台 提 供 中 在 知识 库 中 集成 内 容 和 语义 ， 其 提供 了 对 低级 内 容 的 概念 性 视图 ，@) 基 于 超 媒 
体 的 自 适应 知识 可 视 化 和 导航 系统 ，@ 语 义 搜索 设施 “ ( 见 本 章 参 考 文 献 【CAST] ) 。 
我 们 面临 的 挑战 是 将 客户 信息 集成 到 这 些 语义 Web 技术 中 去 的 同时 ， 也 要 集成 安全 和 
隐私 策略 去 保护 金融 数据 。 然 后 ， 才 是 WS 执行 金融 操作 。 
7.3.7.4 其 他 领域 

电信 和 领域 的 安全 性 也 得 到 了 广泛 的 研究 。 例 如 ， 正 在 提出 用 于 移动 应 用 的 WS (f 
括 手机 和 平板 电脑 ) 。 此 外 ， 电 信和 移动 
计算 领域 的 安全 措施 正在 爆炸 式 发 展 。 这 
些 领 域 的 安全 WS 也 在 研究 之 中 。 图 7. 18 
为 各 种 安全 领域 中 应 用 程序 的 WS。 Samer 


7.3.8 新 兴 Web 技术 的 安全 图 7.18 安全 的 领域 Web 服务 


7.3.8.1 X 即 服 务 的 安全 性 

WX 即 服务 ， 正 在 变 得 非常 受 欢 迎 。 其 中 XX 可 能 是 数据 、 软 件 或 其 他 一 些 概 念 ， 
例如 平台 、 操 作 系 统 、 编 译 器 或 基础 设施 等 。 在 服务 计算 领域 , 一 切 都 将 成 为 一 项 服务 ， 
包括 数据 以 及 医疗 保健 和 金融 等 现实 服务 。 

近年 来 数据 服务 的 安全 性 得 到 了 研究 。 随 着 外 包工 作 的 爆炸 式 增长 ， 许 多 面向 数据 的 
工作 正在 被 外 包 。 因 此 ， 保 护 数据 的 敏感 性 方面 至 关 重 要 。 此 外 ， 当 数据 被 用 作 服 务 提 供 
商 的 服务 时 ， 重 要 的 是 数据 的 质量 高 且 不 被 破坏 。 关 于 软件 ， 重 要 的 是 作为 服务 使 用 的 软 
件 是 无 错误 的 ， 且 不 被 蠕虫 病毒 感染 。 图 7.19 说 明了 为 X 即 服务 提供 安全 性 的 概念 。 关 
于 这 个 主题 的 更 多 细节 将 在 本 书 中 其 他 部 分 讨论 。 
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7.3.8.2. DOs Web 服务 的 安全 性 


AWS (Am: Web Services 经 数据 /软件 中 心服 务 
( Amazon Web Services) 已 经 Rx um 提供 商 实施 安全 策 咯 





为 各 种 规模 的 公司 提供 了 云 的 基础 设施 
WS 平台。 使 用 AWS， 可 以 申请 计算 能 
力 、 存 储 和 其 他 服务 。AWS 提供 名 为 


SimpleDB 的 数据 库 组 件 ， 它 提供 数据 库 ten S 
功能 ， 如 查询 。 亚 马 逊 使 用 SOAP 来 进 
行 客户 端 和 服务 提供 商 之 间 的 通信 。 因 


此 ， 与 SOAP 相关 的 所 有 安全 问题 都 是 图 7.19 X 即 服务 的 安全 性 

相关 的 。 此 外 ， 云 计算 安全 问题 也 与 这 些 讨论 相关 。 在 云 计算 环境 下 ， 安 全 问题 包括 实施 
适当 的 访问 控制 策略 ， 以 及 数据 在 多 个 位 置 的 安全 存储 。 最 近 ， 研 究 人 员 正 在 探索 与 云 中 
的 虚拟 化 有 关 的 审查 问题 。 有 关 云 计算 安全 问题 的 更 多 细节 将 在 第 五 部 分 讨论 。 

我 们 的 研究 重点 是 对 AWS 实施 的 访问 控制 和 加 密 。 要 对 存储 在 亚马逊 环境 中 的 数据 
进行 加 密 ， 从 而 保护 它们 。 此 外 ， 我 们 还 在 这 种 环境 中 实施 基于 角色 的 访问 控制 。 还 有 ， 
我 们 在 云 环境 中 实施 了 XACML， 下 一 节 将 详细 介绍 它 。 有 关 此 主题 的 更 多 详细 信息 ， 请 
参见 本 章 参考 文献 【PRAN09 ] 。 
7.3.8.3 为 云 和 网 格 提供 安全 的 Web 服务 

我 们 迫切 需要 安全 地 存储 、 管 理 、 共 享 和 分 析 大 量 复杂 (例如 半 结 构 化 和 非 结 构 化 ) 
的 数据 ， 以 确定 模式 和 趋势 ， 从 而 提高 医疗 质量 ， 更 好 地 维护 国家 安全 和 探索 可 符 代 能 
源 。 新 兴 云 计算 模式 试图 解决 网 络 连接 设备 的 发 展 问 题 ， 并 处 理 大 量 的 数据 。Google 现在 
已 经 引进 了 Map/Reduce 框架 来 处 理 商 品 硬 件 上 的 大 量 数据 。Apache 的 HDFS 正在 成 为 云 
计算 的 高 级 软件 组 件 ， 它 还 结合 了 Map/ Reduce 等 集成 部 件 。 增 加 人 类 推理 、 解 释 和 决策 
能 力 的 需求 导致 了 语义 Web 的 出 现 ， 这 是 一 个 尝试 将 网 络 从 目前 的 只 有 人 类 可 读 的 形式 
转变 为 机 器 可 处 理 形 式 的 一 个 举措 。 反 之 也 产生 了 许多 拥有 大 量 数据 的 社交 网 站 ， 以 便 共 
享 和 管理 。 

我 们 正在 云 计 算 和 云 计算 安全 方面 进行 广泛 的 研究 ( 见 本 章 参考 文献 [ HAML10] ) 。 
关于 这 方面 的 大 部 分 讨论 都 是 基于 这 一 研究 。 图 7. 20 为 基于 Hadoop 和 Map/Reduce 的 安 


全 云 。 
搜索 引 敬 服务 数据 管理 器 服务 知识 管理 器 服务 
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图 7.20 安全 云 


视频 服务 


软件 即 服务 
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7.4 总 结 和 展望 


在 本 章 中 ， 我 们 讨论 了 各 种 类 型 的 专用 WS。 首 先 ， 讨 论 了 数据 管理 和 复杂 数据 
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理 的 WS。 然 后 ， 讨 论 了 信息 管理 和 知识 管理 的 WS, Fk, bhe f WS 的 活动 管理 和 特 
定 领域 的 WS。 再 次 ， 我们 讨论 了 一 些 新 兴 的 WS， 包括 “X 即 服务 ”的 范例 。 最 后 ， 























全 性 。 








我 们 描述 了 新 兴 WS 的 安全 性 ， 包 括 WS 的 数据 、 信 息 和 知识 的 安全 性 以 及 活动 管理 。 
我 们 还 讨论 了 特定 领域 的 WS 以 及 AWS 和 云 的 安全 性 。 我 们 还 检查 了 X 即 服务 的 安 


我 们 相信 ,今后 关于 WS 以 及 WS 安全 大 部 分 的 进一步 研究 将 以 本 章 讨 论 的 主题 为 
基础 。 有 部 分 原因 > 是 因为 WS 和 WS 安全 是 云 计 算 和 云 计算 安全 的 基本 内 容 。 由 于 需 
要 处 理 和 分 析 大 量 的 数据 ， 云 计算 技术 正在 迅猛 发 展 。 本 书 的 其 余部 分 将 致力 于 云 计 算 























和 云 计算 安全 的 论述 。 
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第 二 部 分 概述 了 Web 服务 和 安全 的 Web 服务 。 因 为 云 给 消费 者 提供 了 一 系列 服务 ， 
所 以 Web 服务 是 云 计算 的 核心 。 

第 5 章 概述 了 面向 服务 的 计算 模式 和 服务 的 安全 问题 。 首 先 ， 我们 论述 了 服务 、 
SOA 和 Web 服务 的 概念 ， 以 及 新 兴 的 X 即 服务 的 范例 、SOA 和 设计 。 然 后， 我 们 论述 
了 SOA 和 Web 服务 的 安全 性 。 特 别 是 ， 我 们 论述 了 Web 服务 的 访问 控制 ， 诸 如 SAML 
All XACML 的 标准 ， 以 及 一 些 新 兴 的 安全 模型 ， 如 授权 、 信 息 流 和 多 层次 安全 性 、 模 
型 。 我 们 还 论述 了 Web 服务 的 身份 管理 。 

第 6 章 概述 了 语义 Web 技术 和 语义 Web 服务 的 概念 。 特 别 是 ， 我 们 论述 了 Tim 
Berners Lee 的 语义 Web 技术 ， 以 及 XML、RDF、 本 体 和 Web 规则 。 我 们 还 论述 了 语义 
Web 服务 ， 以 及 如 何 利用 语义 Web 技术 。 如 第 6 章 所 述 ， 语 义 Web 服务 是 语义 云 计 算 
的 核心 。 

第 7 章 论 述 了 各 种 类 型 的 专用 Web 服务 。 首 先 ， 我们 论述 了 数据 管理 和 复杂 数据 
管理 的 Web 服务。 其 次 ,我 们 论述 了 信息 管理 和 知识 管理 以 及 活动 管理 的 Web 服务 。 
之 后 是 对 特定 领域 的 Web 服务 的 论述 。 最 后 ， 我 们 论述 了 一 些 新 兴 的 Web 服务 ， 包 括 
“X 即 服 务 ” 的 范例 。 
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第 三 部 分 简介 

目前 ， 我 们 已 经 给 出 了 Web 服务 的 概念 ， 现 在 准备 介绍 云 计算 ， 概 述 有 关 云 计算 
的 各 种 概念 、 功 能 、 技 术 、 产 品 以 及 相关 标准 。 我 们 还 将 说 明 如 何 把 第 二 部 分 讨论 的 关 
于 Web 服务 、 语 义 Web 服务 和 专用 Web 服务 的 概念 应 用 于 提供 云 服务 的 过 程 中 。 

第 三 部 分 包含 $ 章 ; 第 8、9、10、11 和 12 章 。 第 8 章 对 云 计算 进行 了 概述 。 第 9 
章 则 论述 云 计算 的 一 些 功能 。 第 10 章 论 述 云 数据 管理 ， 这 是 我 们 研究 与 开发 的 重点 。 
些 专 用 的 云 服务 nee 将 是 第 11 章 所 要 讨论 的 内 容 。 最 后 第 12 
章 的 主要 内 容 是 云 计算 服务 的 提供 商 、 产 品 和 框架 结构 。 






























































第 8 章 云 计 算 概念 


8.1 概述 

















新 兴 的 云 计算 模型 试图 致力 于 解决 网 络 连接 设备 增加 的 问题 ， 并 处 理 大 量 的 数据 。 
谷歌 现在 已 经 推出 了 用 于 处 理 常 用 硬件 中 庞大 数据 的 Map/Reduce 框架 。Apache 的 
HDFS 正在 成 为 云 计算 的 高 级 软件 组 件 ， 并 结合 了 集成 部 件 ， 如 Map/Reduce (WAE 
参考 文献 [HDFS] ) 。 包 括 惠普 的 开放 云 测试 平台 在 内 的 一 些 云 正 在 使 用 HDFS。 这 反 
过 来 导致 了 拥有 庞大 数据 的 许多 社交 网 站 被 分 享 和 管理 。 比 如 ， 我 们 可 能 想 要 从 统计 学 
上 分 析 股 市 历史 数据 来 揭示 一 种 模型 ， 或 者 根据 前 几 年 天 气 的 相关 数据 建立 一 个 稳定 的 
天 气 模型 。 为 了 处 理 这 么 多 来 自 不 同 网 站 ( 即 节 点 ) 的 数据 ， 我 们 需要 可 扩展 的 硬件 
和 软件 组 件 。 已 经 出 现 的 云 计 算 模 型 就 是 为 解决 网 络 连接 设备 爆炸 式 增长 的 问题 ， 并 能 
处 理 大 量 数据 。 它 具有 大 规模 的 可 扩展 性 和 新 互联 网 驱动 的 经 济 等 定义 和 特征 。 

在 本 章 中 我 们 将 论述 一 些 云 计算 的 初步 知识 。 在 这 一 部 分 其 他 章节 还 将 论述 一 些 技 
术 ， 比 如 Hadoop 和 Map/ZReduce。 我 们 会 首先 介绍 一 下 云 计算 的 意义 。 虽 然 对 于 云 计 算 
已 经 给 出 了 许多 定义 ， 但 我 们 将 采用 NIST 给 出 的 定义 。 这 是 一 个 基于 服务 的 云 计 算 定 
义 。 特 别 的 是 ， 我 们 将 详细 阐述 一 EMI 
些 在 第 5 章 介 绍 过 的 内 容 (HU Web 
服务 ) 。 接 下 来 我 们 将 论述 包括 虚 
拟 化 和 数据 存储 在 内 的 各 种 核心 RAE 
概念 。 图 8.1 云 计算 概念 

本 章 的 结构 如 下 : 8.2 节 讨 论 
云 计 算 初 步 知识 ; 虚拟 化 将 在 8. 3 节 中 讨论 ; 8.4 节 讨 论 云 存储 和 数据 管理 问题 ; 本 章 
总 结 在 8.5 节 。 图 8. 1 为 本 章 中 所 述 的 组 件 。 我 们 还 将 指出 第 二 部 分 讨论 的 概念 对 第 三 
部 分 讨论 的 概念 的 适用 性 。 


























































































部 署 和 服务 模型 





存储 和 数据 管理 











8.2 云 计 算 初 步 知 识 


如 本 章 参 考 文献 [CLOUD] 里 所 述 ， 传 统计 算 以 产品 的 形式 提供 ， 而 云 计 算 将 计 
算 变 为 一 种 可 提供 的 服务 。 因 此 ， 用 户 根据 即 付 即 用 模式 支付 服务 费用 。 云 提供 的 服务 
可 能 包括 硬件 、 系 统 、 数 据 和 存储 。 云 的 用 户 不 需要 知道 软件 和 数据 的 位 置 ， 也 就 是 
说 ， 云 提供 的 软件 和 数据 服务 对 用 户 来 说 是 透明 的 。 本 章 参考 文献 [ NIST] 将 云 计 算 定 
义 如 下 : 
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云 计 算是 一 个 模型 9 








能 实现 无 处 不 在 的 、 方 便 的 、 按 需 的 通过 网 络 访问 可 配置 的 计 





算 资 源 共享 池 (如 网 络 、 服 务 器 、 存 储 、 应 用 程序 和 服务 ) ， 且 只 需 最 少 的 管理 工作 或 
与 服务 提供 商 的 互动 ， 就 可 以 快速 配置 和 发 布 。 
云 模 型 由 多 个 部 署 模 型 和 服务 模型 组 成 。 下 面 介 绍 这 些 模型 。 


8.2.1 云 的 部 署 模 型 


























云 计算 有 多 种 部 署 模型 ， 
服务 提供 商 通常 提供 可 











是 即 付 即 用 的 服务 。 
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这 包括 公有 云 、 社 区 云 、 私 有 云 和 混合 云 。 对 于 公有 云 ， 


成 本 由 参与 其 中 的 组 织 共 























由 公众 访问 的 WWW 上 的 服务 。 这 种 云 可 以 提供 免费 服务 或 者 
区 云 是 一 群 组 织 一 起 开发 的 云 。 这 些 组 织 往往 有 着 共同 的 目标 ， 
比如 提供 安全 和 容错 性 功能 ， 
或 第 三 方 托管 。 私 有 云 是 专门 针对 特定 的 组 织 而 开发 的 云 基础 架构 。 这 


同 承担 。 此 外 ， 社 区 云 可 以 由 组 
岂可 以 由 组 织 


或 第 三 方 托管 。 混 合 云 由 公有 云 和 私有 云 组 合 而 成 。 这 样 在 混合 云 中 ， 组 织 既 可 以 使 用 
私有 云 进 行 高 度 敏感 的 服务 ， 同 时 又 可 以 使 用 公有 云 来 进行 较 低 敏感 度 的 服务 ， 还 能 充 





分 利用 WWW 提供 的 功能 。 











Kantarcioglu 和 他 的 
表示 ， 混 合 云 将 是 


部 署 模型 ( 见 本 章 








同事 们 
未 来 的 
参考 文 


wk [KHAD12])。 图 8.2 为 


云 的 部 署 模型 。 


8.2.2 服务 模型 


如 前 所 述 ， 云 计算 提供 了 各 种 服务 。 这 些 包 括 基础 设施 即 服务 (Infrastructure as a 
Service, laaS) 、 平 台 即 服务 (Platform as a Service, PaaS), 、 软 件 即 服务 (Software as a 
Service, SaaS) 和 数据 即 服务 (Data as a Service, DaaS) 。 在 laaS 中 ， 云 提供 了 一 系列 
硬件 和 网 络 ， 供 一 般 公 众 或 组 织 使 用 。 用 户 安装 操作 系统 和 软件 来 运行 应 用 程序 。 用 户 




















将 根据 他 们 用 于 计算 的 资源 进行 结算 。 在 PaaS 中 ， 云 提供 商 将 向 











如 操作 系统 (0S) 和 执行 环境 。 用 户 将 加 载 他 们 的 应 
件 基础 设施 上 运行 。 在 SaaS 中 ， 云 提供 商 将 为 用 








序 可 以 说 是 计 费 应 用 











用 程序 。 在 DaaS 的 








情况 下 ， 








云 提供 数据 给 云 用 








户 。 数 


据 可 能 存储 在 去 用 户 要 访问 


的 数据 中 心里 。 























据 即 服务 。 图 
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需要 注意 的 
dé, 虽然 Das 用 于 表示 桌 
面 即 服务 ,但 最 近 它 表示 数 
8.3 为 云 的 服务 模 
和 标准 都 可 以 用 于 开发 基础 设施 、 平 台 、 软 件 、 应 月 





程序 、 税 务 计算 应 














云 的 部 署 模型 
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图 8.2 云 的 部 署 模 型 




















用 户 提 供 系 统 软 件 ， 





























用 程序 ， 并 在 云 提供 的 硬件 和 软 
户 提供 运行 的 应 用 














程序 。 这 些 应 用 程 











用 程序 和 销售 




















工具 。 云 用 户 通过 云 客户 端 访 问 应 








云 的 服务 模型 
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图 8.3 云 的 服务 模型 




















型 。 应 注意 到 外 























B5 章 中 讨论 的 所 有 面向 服务 的 概念 、 技 术 
程序 和 数据 服务 等 云 服 务 。 





Sex 云 计 算 概念 《中 


8.3 虚拟 化 


虚拟 化 实质 上 意味 着 创造 某 种 不 存在 的 不 是 实际 的 东西 。 它 可 以 是 硬件 、 软 件 、 内 
存 和 数据 。 虚 拟 化 的 概念 在 计算 方面 已 存在 数 十 年 。 早 在 20 世纪 60 年 代 ， 就 引入 了 虚 
拟 内 存 的 概念 。 这 个 虚拟 内 存 给 应 用 程序 带 来 了 它 有 连续 的 一 块 工作 内 存 的 错觉 ， 映 射 
是 为 了 将 虚拟 内 存 映 射 到 实际 物理 内 存 而 开发 的 。 

硬件 虚拟 化 是 云 计算 的 基本 概念 。 实 际 上 ， 是 创建 一 个 托管 在 具有 操作 系统 的 真实 
计算 机 上 的 虚拟 机 。 这 意味 着 当 实际 的 机 器 可 能 是 运行 Windows 操作 系统 的 IBM PC 
(个 人 计算 机 ) 时 ， 通 过 虚拟 化 ， 它 可 以 向 用 户 提供 运行 Linux 的 SUN Solaris 机 器 。 实 
际 的 机 器 称 为 主机 ， 而 虚拟 机 称 为 客户 机 。 

其 他 类 型 的 虚拟 化 包括 操作 系统 级 虚拟 化 、 存 储 虚 拟 化 和 数据 /数据 库 虚 拟 化 。 操 
作 系 统 级 虚拟 化 与 硬件 虚拟 化 密切 相关 。 在 这 种 类 型 的 虚拟 化 中 ， 多 个 虚拟 环境 可 被 创 
建 在 单个 操作 系统 中 。 虚 拟 机 监视 器 〈 也 称 为 管理 程序 ) 是 虚拟 机 运行 在 主机 上 的 软 
件 。 在 存储 虚拟 化 中 ， 逻 辑 存 储 从 物理 存储 中 抽象 出 来 。 这 必须 从 逻辑 存储 提供 映射 到 
物理 存储 中 。 在 数据 /数据 库 虚拟 化 中 ， 数 据 从 基础 数据 库 中 抽象 出 来 。 这 样 ， 用 户 就 
有 像 在 自己 的 数据 库 上 工作 的 错觉 。 
我 们 可 以 创建 多 个 这 样 的 虚拟 数据 库 。 
虚拟 数据 库 必 须 映射 到 物理 数据 库 。 
应 该 注意 的 是 ， 尽 管 有 些 人 区 分 了 数 
气虚 拟 化 和 数据 库 虚 拟 化 ， 但 是 我 们 硬件 虚拟 化 操作 系统 虚拟 化 | | 数据 库 虚 拟 化 
仍 可 以 互 换 使 用 这 两 个 术语 。 在 网 络 图 8.4 虚拟 化 的 类 型 
虚拟 化 中 ， 虚 拟 网 络 被 创建 。 虚 拟 网 
络 必须 映射 到 物理 网 络 。 图 8. 4 为 各 种 类 型 的 虚拟 化 。 

如 前 所 述 ， 云 计算 的 核心 是 虚拟 机 管理 程序 或 虚拟 机 监视 器 的 概念 。 硬 件 虚拟 化 技 
术 人 允许 多 个 操作 系统 〈 称 为 访客 ) 在 主机 上 同时 和 运行。 这些 多 个 操作 系统 共享 虚拟 化 
的 硬件 资源 。 虚 拟 机 管理 程序 不 是 一 个 新 词 ， 在 20 世纪 60 年 代 中 期 ，IBM 360/65 机 器 
中 就 首次 使 用 过 。 现 有 不 同类 型 的 虚拟 机 管理 程序 。 其 中 有 一 种 模型 ， 管 理 程序 在 主机 
硬件 上 运行 ， 并 管理 客户 操作 系统 。 现 在 的 流行 虚拟 机 VMware 和 XEN 均 基 于 此 模型 。 
在 男 外 一 个 模型 中 ， 管 理 程序 在 常规 操作 系统 环境 中 运行 。 虚 拟 机 也 被 并 入 到 般 入 式 系 
统 和 手机 中 。 磐 人 式 管 理 程序 具有 实时 处 理 能 力 。 我 们 将 在 第 9 章 中 提供 有 关 虚 拟 机 
理 程 序 的 更 多 详细 信息 ， 如 XEN 和 VMware。 虚拟 化 的 一 些 细节 在 本 章 参 考 文献 [ VIR- 
TUAL] 中 提供 。 


8.4 云 存 储 和 数据 管理 


在 云 存 储 模型 中 ， 服 务 提 供 商 为 数据 中 心 的 客户 存储 大 量 数据 。 将 从 作为 托管 公 局 
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的 服务 提供 商 那 里 ， 那 些 需要 存储 空间 的 人 可 以 租用 存储 空间 。 这 种 情况 下 ， 数 据 的 实 








际 位 置 对 用 户 来 说 是 透明 的 。 向 用 户 呈 现 的 是 虚拟 化 存储 ， 存 储 管理 器 将 虚拟 存储 映射 
到 实际 存储 ， 并 为 客户 管理 数据 资源 。 单 个 对 象 〈 例 如 ， 客 户 的 整个 视频 数据 库 ) 可 

















以 存储 在 多 个 位 置 。 每 个 位 置 可 以 存储 多 个 客户 的 对 象 。 图 8. 5 为 云 存储 管理 。 














重 的 安全 问题 。 








可 视 化 云 存 储 有 很 多 优点 。 虚拟 存储 
用 户 不 需要 购买 昂贵 的 存储 设 
备 ， 数 据 可 以 放 在 云 中 的 任何 地 
方 。 云 环境 提供 像 备 份 和 恢复 等 
维护 工作 ， 目 的 是 让 用 户 快速 访 
问 云端 。 然 而 ， 由 于 数据 的 所 有 
者 不 能 完全 控制 他 的 数据 ， 所 以 


将 数据 存储 在 云 中 时 可 能 存在 严 


物理 存储 
在 云 上 运行 的 数据 库 是 云 数 
据 库 管理 恬 。 现 有 多 种 方法 来 使 
用 云 数据 库 管理 器 。 在 第 一 个 模 





云 存 储 管理 














型 中 ， 为 了 让 用 户 在 云端 运行 数 Kiss 云 存储 管理 
据 库 ， 必 须 购买 虚拟 机 镜像 ， 然 














后 在 虚拟 机 上 运行 数据 库 。 第 二 个 模型 是 数据 库 即 服务 模型 ， 服 务 提供 商 将 维护 数据 

















库 。 用 户 将 利用 数据 库 服务 并 支付 服务 费用 。 其 中 的 一 个 例子 是 亚马逊 关系 数据 库 服 








务 ， 它 是 一 个 SQL 数据 库 服务 ， 并 具 ET 
fr MSO EH. (ERAY OR E 





[AMAZON D, 。 第 三 个 








模型 是 代表 用 户 





托管 数据 库 的 云 提供 商 。 用 户 可 以 利 一 - - 
用 云 来 维护 数据 库 服务 ， 或 者 可 以 在 | 去 管理 | | zws | aemm 
云 上 运行 自己 的 数据 库 。 云 数据 库 必 到 8.6 云 数 据 管理 









































须 优化 其 查询 、 存 储 和 事务 处 理 ， 以 
充分 利用 云 提供 的 服务 。 图 8. 6 为 去 数据 管理 。 这 里 应 注意 到 第 6 章 讨论 的 典型 服务 可 


能 用 于 开发 云 数 据 管 








服务 ， 这 些 服务 可 能 包括 云 查 询 服务 和 云 事 务 服务 。 


8.5 总 结 和 展望 





本 章 介 绍 了 云 计 算 的 概念 ， 并 讨论 了 虚拟 化 的 各 个 方面 。 特 别 是 讨论 了 硬件 虚拟 


化 、 操 作 系统 虚 拟 化 、 





网 络 虚 拟 化 和 数据 库 虚 拟 化 的 方面 。 我 们 还 讲述 了 云 的 各 种 服务 


模型 和 部 署 模型 ， 并 简要 介绍 了 云 的 功能 ， 如 存储 管理 和 数据 管理 。 本 部 分 的 其 余 章 节 
将 讲述 有 关 云 计算 概念 的 更 多 详细 信息 。 特 别 地 ， 我 们 将 说 明 云 功能 的 一 些 细节 ， 以 及 
云 计 算 系 统 的 产品 和 原型 。 这 些 革 节 将 为 讨论 云 的 安全 问题 以 及 我 们 开发 的 实验 系统 葛 
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第 9 章 云 计 算 功 能 


9.1 概述 


在 第 8 章 中 ， 我 们 概述 了 云 计 算 中 的 各 种 概念 。 这 包括 对 部 署 模型 、 服 务 模型 以 及 
对 云 中 虚拟 化 、 存 储 和 数据 管理 的 论述 。 事 实 上 ， 虚 拟 化 、 存 储 和 数据 管理 可 以 被 认为 
是 云 计算 功能 。 本 章 将 介绍 云 计算 功能 。 

我 们 对 这 些 功能 论述 的 方法 是 先 研究 计算 系统 的 一 般 功 能 ， 然 后 再 研究 云 对 这 些 功 
能 的 影响 。 这 些 功能 存在 于 操作 系统 、 存 储 系统 、 数 据 库 系 统 、 信 息 管理 系统 、 知 识 管 
理 系统 和 网 络 系统 。 通 过 云 计 算 功 能 框架 将 能 更 好 地 说 明 这 些 功 能 。 

本 章 的 组 织 结构 如 下 。 我 们 设计 的 云 计算 框架 将 在 9.2 节 中 讲述 ; 9.3 节 讨 论 包 括 
虚拟 化 在 内 的 操作 系统 功能 ; 9.4 节 讲 述 云 网 络 ; 9.5 节 说 明 云 数据 和 存储 管理 功能 ; 
应 用 程序 功能 将 在 9. 6 节 中 论述 。 其 他 方面 ， 如 云 策略 管理 、 备 份 和 恢复 将 在 9.7 节 中 
讨论 。 本 章 总 结 在 9. 8 节 。 

应 该 指出 的 是 ， 本 章 仅 简 要 讨论 策略 管理 。 当 我 们 在 第 五 部 分 中 详细 讨论 保证 云 安 
全 时 ， 将 给 出 策略 管理 的 细节 内 容 。 此 外 ， 第 二 部 分 讨论 的 概念 、 标 准 和 技术 ， 如 Web 
服务 和 典型 数据 服务 可 用 于 提供 云 服 务 (例如 ， 云 基础 设施 服务 和 云 数 据 管 理 服 务 ) 。 


本 章 讨论 的 功能 如 图 9. 1 所 示 。 
云 计算 功能 
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云 操作 系统 云 数 据 和 云 策略 管理 、 
和 虚拟 机 管 诸 管 理 局 
存储 管 备份 和 恢复 





图 9.1 云 计 算 功 能 


9.2 云 计算 框架 








基于 云 计算 功 能 的 云 计算 框架 如 图 9.2 所 示 。 我 们 定义 了 一 个 分 层次 的 框架 。 最 底 
层 是 网 络 层 ， 最 高 层 是 应 用 层 。 应 用 程序 可 以 是 任何 类 型 的 应 用 程序 ， 包 括 医疗 保健 、 
财务 、 防 御 和 情报 。 我 们 在 云端 托管 的 应 用 可 以 是 社交 网 络 、 内 部 威胁 分 析 、 恶 意 软 件 
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自 
用 ， 包 括 信息 和 知识 管理 。 





云 框架 的 核心 层 是 操作 系统 /虚拟 化 层 、 存 储 层 和 
数据 管理 层 ， 还 包括 数据 挖掘 功能 。 操 作 系 统 / 虚 拟 化 
层 是 执行 虚拟 化 ， 以 及 内 存 管 理 、 调 度 和 进程 间 通 信 管 
理 的 一 层 。 存 储 层 将 管理 云 中 大 量 数据 的 存储 。 我 们 认 














第 9 章 去 计算 功能 


云 应 用 层 
云 数据 层 
云 存 储 层 








为 Hadoop 等 分 布 式 文件 系统 是 管理 分 布 式 存储 的 存储 








层 的 一 部 分 ， 对 于 分 析 任 务 ，Hadoop 要 与 Google 
Reduce 共同 解决 。 数 据 管理 层 将 进行 云 查询 处 理 、 
务 管理 、 云 元 数据 管理 和 云 数据 挖掘 。 











Map/ 云 操作 系统 和 管理 程序 层 


息 共 享 和 本 体 管理 。 我 们 将 在 后 面 的 章节 中 描述 这 些 应 用 。 还 有 可 能 有 其 他 应 








云 事 
图 9.2 ”去 计算 框架 





策略 管理 是 安全 管理 的 一 个 方面 ， 其 与 备份 和 恢复 
都 是 云 计算 的 功能 。 安 全 性 必须 纳入 每 一 层 。 此 外 ， 在 出 故障 的 情况 下 ， 系 统 必须 能 
恢复 。 我 们 将 在 后 面 的 章节 中 讨论 安全 性 。 在 本 章 的 其 余部 分 中 ， 将 讨论 本 节 中 论述 的 

















其 他 功能 。 在 第 10 章 我 们 将 讨论 云 数 据 管理 ， 在 外 





9.3 云 操 作 系 统 和 管理 程序 


B 11 章 将 讲述 云 应 用 。 


云 基本 上 由 一 系列 机 器 组 成 。 每 个 机 器 (或 计算 机 或 节点 ) 都 有 自己 的 操作 系统 ， 
其 称 为 主机 操作 系统 。 然 而 ， 为 了 增强 云 的 计算 能 力 ， 节点 可 以 拥有 虚拟 机 (Virtual 


Machine, VM) 监视 器 ， 其 也 叫 虚拟 机 管理 




















呈 序 ”通过 虚拟 机 管理 程 a "Egi 客户 操 客户 操 
程序 。 通 过 虚拟 机 管理 程序 ， 向 用 户 提 供 称 TFAO 


为 客户 机 OS 等 许多 虚拟 操作 系统 的 支持 。 
图 9. 3 为 管理 程序 的 概念 。 



































克 里 斯 本 顿 在 关于 云 安 全 联盟 的 文章 


件 模 拟 硬件 的 能 力 ( 见 本 章 参 考 文献 
[VIRT] )。 该 文章 还 指出 ， 某 些 形式 的 操作 





云 主机 操作 系统 
E seme + | — mne 


完整 的 操作 系统 ， 如 Linux， 或 者 它 可 能 是 
一 个 专门 用 于 虚拟 化 的 精简 系统 。 在 每 一 种 




















图 9.3 管理 程序 的 概念 





情况 下 ， 首 先 要 引导 操作 系统 ， 然 后 加 载 管理 程序 ( 即 VM 监视 器 )。 管 理 程序 模拟 客 

















户 操作 系统 的 特定 硬件 配置 。 也 就 是 说 ， 当 一 个 客户 操作 系统 被 加 载 到 一 个 虚拟 机 中 
时 ， 通 过 虚拟 机 管理 程序 而 不 是 实际 的 硬件 来 模拟 托管 该 客户 机 的 硬件 。 当 然 ， 最 终 多 
个 虚拟 机 必须 映射 到 一 台 物 理 机 器 ， 这 对 于 管理 程序 来 说 是 一 个 挑战 。 




















应 该 注意 的 是 ， 尽 管 虚拟 化 在 云 中 是 可 取 的 ， 














日 并 不 是 必需 的 。 虽 然 许 多 云 使 





拟 化 ， 特 别 是 Iaas 云 ， 但 基于 SaaS 的 云 有 时 不 提供 虚拟 化 功能 。 许 多 云 部 署 时 都 








虚拟 化 组 件 。 虽然 这 是 一 种 常见 的 技术 ,但 是 克 里 

















用 虚 








包含 


斯 本 顿 说 ， 人 们 可 以 将 云 作为 多 个 用 
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户 租赁 的 房子 〈( 即 云 ) 。 房 子 可 能 有 地 下 室 ( 即 管理 程序 ) ， 但 是 房子 不 是 必须 要 有 地 
下 室 。 

虚拟 化 有 两 种 类 型 的 模型 。 一 个 是 基于 主机 的 ， 另 一 个 是 裸 机 。VMware 和 XEN 等 
系统 提供 基于 主机 的 虚拟 化 。 也 就 是 说 ， 管 理 程序 在 主机 操作 系统 上 运行 。 虽 然 为 应 用 
程序 开发 的 工具 可 以 用 于 管理 程序 ， 但 管理 程序 代码 量 可 能 很 大 ， 这 从 安全 角度 来 看 不 
是 很 好 。 在 裸 机 的 情况 下 ， 操 作 系 统 支 持 虚 拟 化 。 这 样 ， 虽 然 可 能 没有 针对 管理 程序 而 
开发 良好 的 工具 ， 但 代码 量 可 以 保持 在 最 低 限 度 。 有 关 虚 拟 化 的 更 多 详细 信息 ， 请 参阅 
本 章 参考 文献 [BARH03] 和 [VM], 


9.4 云 网 络 


在 本 节 中 ， 我 们 将 论述 云 网 络 。 关 于 云 的 许多 论述 都 侧重 于 虚拟 化 和 系统 方面 。 通 
常 都 假设 商业 网 络 足 以 承载 云 。 然 而 ， 在 构建 云 的 网 络 方面 还 需要 一 些 努 力 。 例 如 ， 在 
关于 云 网 络 的 论文 中 ,作者 指出 ， 设 计 良 好 的 网 络 来 支持 云 架 构 需 应 对 几 个 挑战 (UL 
本 章 参 考 文献 [BORO11 ] ) 。 这 些 挑战 包括 存在 于 WAN (广域网 ) 性 能 和 安全 性 之 间 
的 路 由 优化 、 可 靠 性 和 延迟 等 问题 。 我 们 专注 于 前 两 个 方面 。 
关于 路 由 优化 ， 企 业 要 考虑 的 一 个 关键 挑战 是 网 络 如 何在 视频 通过 云端 传输 时 ， 来 
识别 视频 、 衡 量 视 频 和 区 分 视频 优先 级 ( 见 本 章 参 考 文献 [BORO11] ) 。 在 私有 云 和 混 
合 云 环境 中 ， 网 络 应 该 适应 于 基于 用 户 位 置 、 设 备 类 型 或 可 达 性 等 因素 来 提供 最 佳 体 
验 。 关 于 广域网 性 能 方面 的 可 靠 性 和 延迟 性 ， 所 面临 的 挑战 是 : 以 最 大 的 可 靠 性 和 最 小 
的 延迟 性 从 云端 传输 应 用 程序 时 ， 能 有 一 致 且 高 质量 的 性 能 。 

像 系 统 和 数据 虚拟 化 一 样 ， 云 计算 也 正在 探索 网 络 虚拟 化 。 如 本 章 参 考 文献 【BO- 
ROLL] 所 述 ， 网 络 虚拟 化 是 将 硬件 、 软 件 网 络 资源 和 网 络 功能 组 合 到 一 个 基于 软件 的 
管理 实体 (虚拟 网 络 ) 中 的 过 程 。 网 
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络 虚拟 化 涉及 平台 虚拟 化 ， 并 且 通 常人 em EM EM 
与 资源 虚拟 化 相 结 合 。 网 络 虚拟 化 被 A MA me Qi 


分 类 成 外 部 和 内 部 的 虚拟 化 。 在 外 部 

情况 下 ， 将 许多 网 络 或 网 络 的 一 部 分 

组 合成 虚拟 单元 ;在 内 部 情况 下 ， 向 云 网 络 
单个 系统 上 的 软件 容器 提供 类 似 网 络 
的 功能 。 好 比 是 用 于 系统 虚拟 化 的 VM 
监视 器 ( 即 管理 程序 ) 的 概念 ， 虚 拟 
网 络 监视 器 处 理 网 络 虚拟 化 。 思 科 等 
提供 商 正在 为 网 络 提供 虚拟 化 功能 。 
在 将 虚拟 化 网 络 集成 到 云 环境 中 还 需 Eo4 zB 
要 做 更 多 的 工作 。 图 9. 4 为 云 网 络 。 








物理 网 络 
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9.5 云 数 据 和 存储 管理 


最 近 有 一 些 关 于 云 数据 管理 的 研究 ， 我 们 将 在 第 10 章 中 讨论 其 细节 。 在 本 节 中 ， 
我 们 将 总 结 数据 管理 功能 (如 查询 处 理 、 事 务 管理 及 存储 、 元 数据 管理 和 数据 挖掘 ) 
所 面临 的 挑战 。 安 全 细节 将 在 第 五 部 分 中 给 出 。 

关于 云 计算 查询 处 理 器 ， 我 们 已 经 做 了 一 些 工 作 。 例 如 ， 我 们 已 经 实现 了 使 用 Ha- 
doop, Map/Reduce 和 Hive 技术 的 云 查询 处 理 器 ， 还 实现 了 云 查询 处 理 的 语义 Web 数 
据 。 相 应 的 实现 技术 将 在 第 四 部 分 讨论 。 我 们 所 面临 的 挑战 是 查询 处 理 过 程 中 ， 要 提出 
适当 的 查询 优化 策略 ， 这 将 取决 于 数据 如 何在 云 中 跨 节点 存储 。Kantarcioglu 已 经 研究 
了 云 查询 处 理 问题 。 在 这 项 工作 中 ， 他 表示 云 查 询 处 理 的 主要 挑战 之 一 是 动态 资源 分 配 
( 见 本 章 参考 文献 [ OKTA12 ] ) 。 

关于 云 中 的 事务 处 理 问 题 ， 已 经 有 学 者 做 了 一 些 研 究 。 最 值得 注意 的 是 约翰 内 斯 : 
吉尔 克 〈 见 本 章 参考 文献 [GEHR11]) 所 做 的 工作 。 他 表示 ， 云 数据 管理 面临 的 一 个 
重大 挑战 是 扩展 和 访问 。 虽 然 基 于 锁 的 实现 在 比如 数据 库 系统 和 搜索 引擎 的 传统 信息 访 
问 系 统 中 占 主 导 地 位 ， 但 是 出 现 了 基于 乐观 并 发 控制 机 制 ( Optimistic Concurrency Con- 
tol, OCC) 的 云 系统 。 

关于 云 存储 面临 的 挑战 是 为 云 环境 提供 适当 的 存储 策略 。 在 云 中 跨 节 点 存储 时 ， 数 
据 如 何 分 片 ? 如 何 利 用 数据 虚拟 化 来 提供 最 佳 的 存储 空间 ? Kantarcioglu 和 Mehrotra 已 经 
为 混合 云 开发 了 引 人 关 注 的 存储 方案 ( 见 本 章 参 考 文献 [OKTA12] ) 。 他 们 指出 ， 云 计 
算 的 新 兴 趋 势 是 混合 云 ， 云 中 终端 用 户 站 点 的 内 部 功能 /资源 将 与 云 服 务 无 颖 集成 ， 以 
生成 强大 的 性 价 比 高 的 数据 处 理解 决 方案 。 

云 中 的 元 数据 管理 不 仅 包 括 有 关 数 据 和 云 中 资源 的 信息 ， 还 包括 有 关 用 户 账户 、 使 
用 模式 、SLA (Service Level Agreement， 服 务 等 级 协议 ) 和 其 他 云 特定 需求 的 信息 。 人 
们 还 需要 做 很 多 工作 是 提供 适当 的 模型 来 存储 和 管理 云 中 的 元 数据 。 


云 数 据 挖掘 已 经 成 为 一 个 重要 的 领域 ， 
寺 别 是 在 大 数据 分 析出 现 之 后 。 数 据 挖 掘 算 FA ree 
法 相对 于 并 行 数据 挖掘 的 性 能 得 到 了 增强 。 


现在 所 面临 的 挑战 是 在 云 上 实现 这 些 并 行 数 
据 挖 掘 技术 。 需 要 注意 的 是 ， 并 行 /分 布 式 
数据 库 与 云 数据库 之 间 的 差异 在 于 ， 有 了 云 
可 以 通过 迁移 云 数 据 以 获得 更 好 的 资源 利用 
率 。 因 此 ， 数 据 挖掘 算法 应 该 考虑 数据 的 位 













































































































































































云 数据 和 存储 管理 



































置 迁 移 。 图 9.5 为 云 数据 和 存储 管理 问题 。 E 
有 关 云 中 数据 管理 的 应 该 关注 的 论文 已 经 在 
本 章 参 考 文献 [DMC12] 中 给 出 。 图 9.5 云 数据 和 存储 管理 问题 
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9.6 RAN 











我 们 需要 云 的 各 种 功能 去 托管 云 上 的 各 种 应 用 程序 。 这 些 应 用 程序 可 能 是 某 领域 的 
应 用 程序 ， 如 医疗 保健 、 金 融 或 开 应 用 程序 ， 如 信息 管理 、 知 识 管理 以 及 社交 网 络 。 
在 本 书 的 后 续 部 分 ， 我 们 将 讨论 
一 些 已 经 开发 的 利用 云 的 应 用 程 
序 。 我 们 的 应 用 主要 致力 于 云 数 
据 和 信息 管理 上 。 图 9.6 说 明了 
云 应 用 情况 ， 其 中 的 一 些 应 用 将 
在 第 11 章 中 讨论 。 防御 和 情报 

接 下 来 ,我 们 将 讨论 一 些 例 
子 。 医 疗 机 构 可 能 会 使 用 云 来 整 图 9.6 云 应 用 
合 众 多 数据 源 。 这 些 数据 源 可 以 
存储 在 云 中 。 云 可 以 执行 比如 本 体 结盟 操作 (其 中 涉及 相同 概念 的 多 个 本 体 被 集成 ) 
和 其 他 数据 密集 型 操作 。 社 交 网 络 也 可 以 被 托管 在 云端 。 云 将 提供 计算 资源 来 整合 和 挖 
据 社 交 网 络 中 的 数据 。 我 们 将 在 第 四 部 分 中 举例 说 明 如 何 将 云 应 用 于 社交 网 络 管理 和 查 
询 处 理 等 应 用 。 云 应 用 程序 也 将 在 第 12 章 讨 论 。 


9.7 云 策略 管理 、 备 份 和 恢复 


我 们 的 框架 还 说 明了 云 策略 管理 、 备 份 和 恢复 。 策 略 管理 组 件 将 在 每 一 层 执行 各 种 
策略 ， 这 些 策略 可 以 是 安全 策略 或 其 他 类 型 的 策略 ， 如 管理 策略 。 人 们 已 经 开发 了 各 种 
标准 来 说 明和 执行 策略 (例如 ，SAML、XACML WS - Security) 。 

备份 和 恢复 是 云 服务 提供 商 必 须 执 行 的 重要 功能 。 云 计算 环境 必须 为 客户 启动 和 运 
行 这 些 功 能 。 因 此 ，SLA 必须 指定 云 要 被 维护 多 长 时 间 。 此 外 ， 为 了 管理 上 的 问题 ， 云 
数据 必须 进行 备份 并 且 在 可 能 的 情况 下 要 进行 复制 。 在 解决 云 安 全 问题 时 ， 我 们 将 论述 
一 些 面临 的 挑战 ， 网 9.7 说 明了 云 策略 管理 、 备 份 和 恢复 问题 。 























































































































































































































云 策 略 管理 、 
备份 和 恢复 











ze TEE || 云 的 备份 程序 | 从 故障 中 例 复 去 


























图 9.7 云 策略 管理 、 备 份 和 恢复 问题 
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第 9 章 云 计算 功能 《二 


9.8 总 结 和 展望 








本 前 讨论 了 云 计算 功能 的 各 个 方面 。 首 先 ， 我们 提出 了 一 个 云 计算 框架 。 
网 络 层 、 虚 拟 化 层 、 存 储 层 、 数 据 管理 层 和 应 用 层 组 成 。 其 次 ， 我 们 讨论 
能 。 最 后 ， 我 们 还 讨论 了 云 的 策略 管理 、 备 份 和 恢复 问题 。 

































































该 





框架 由 
层 的 功 


由 于 云 数据 管理 是 我 们 的 专业 领域 ,在 第 10 章 我 们 将 会 讨论 云 数 据 管 理 。 我 们 将 
在 第 11 章 讨 论 云 应 用 。 我 们 为 云 数据 管理 和 应 用 开发 的 一 些 原型 的 细节 将 在 本 书 的 第 








四 部 分 给 出 。 在 本 书 的 第 五 部 分 ， 我们 将 讨论 云 的 安全 问题 。 特 别 是 ， 我 们 将 讨论 我 们 





的 云 框架 中 每 一 层 的 安全 性 。 
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第 10 章 云 数 据 管理 


10.1 概述 





在 过 去 40 年 中 ， 数 据 库 系 统 技术 已 经 发 生 了 很 大 的 进步 ， 也 就 是 从 基于 网 络 和 分 
层 模 型 的 派生 系统 ， 发 展 到 基于 客户 端 - 服务 器 体系 结构 的 关系 和 面向 对 象 的 数据 库 系 
统 。 数 据 库 系统 现在 可 以 通过 网 络 访问 ， 数 据 管理 服务 也 可 以 作为 Web 服务 来 实现 。 
我 们 考虑 一 个 数据 库 系 统 ， 同 时 包括 数据 库 管理 系统 (DBMS) 和 数据 库 ( 男 见 本 章 参 
考 文献 [DATE90] 中 的 讨论 ) 。 数 据 库 系统 的 DBMS 组 件 管理 着 数据 库 。 数 据 库 包含 
持久 性 数据 ， 也 就 是 说 即使 应 用 程序 消失 数据 也 是 永久 性 的 。 

在 第 9 章 中 ， 我 们 讨论 了 包括 云 数 据 管 理 功 能 在 内 的 云 功能 。 在 本 章 中 我 们 将 详细 
介绍 云 数据 管理 。 因 为 这 个 话题 还 处 于 起 步 阶段 ， 我 们 将 讨论 各 种 数据 管理 功能 ， 以 及 
它们 如 何 可 以 在 云 中 实现 。 应 该 指出 的 是 ，“ 大 数据 ”的 概念 越 来 越 受 欢迎 。 也 就 是 
说 ， 人 们 必须 处 理 大量 EB 级 别 甚至 更 多 的 数据 。 许 多 人 认为 ， 云 计算 将 在 大 数据 计划 
中 发 挥 重 要 作用 。 

本 章 的 结构 如 下 。 在 10. 2 节 中 ,我 们 将 讨论 关系 数据 模型 及 其 在 云 上 的 实现 。 在 
10.3 节 中 ， 描 述 了 数据 库 系统 中 各 种 类 型 的 架构 。 这 些 包括 用 于 集中 式 数据 库 系 统 的 
体系 结构 、 计 划 架 构 以 及 功能 架构 。 然 后 ， 我 们 将 讨论 云 上 的 数据 管理 架构 。10.4 节 
讨论 了 数据 库 系 统 的 功能 。 这 些 功 能 包括 查询 处 理 、 事 务 管理 、 元 数据 管理 和 存储 管 
理 、 完 整 性 维护 和 容错 性 。 需 要 注意 的 是 ， 安 全 性 将 是 本 书后 面 儿 章 的 主题 ， 因 此 本 章 
将 不 再 讨论 安全 性 。 对 于 每 个 功能 ， 我 们 将 讨论 云 计 算 环 境 对 其 的 影响 。 数 据 挖掘 将 是 
10.5 节 的 主题 ， 并 且 会 涉及 云 数 据 挖掘 的 内 容 。 在 10.6 节 中 ， 我 们 将 讨论 云 中 的 信息 
管理 。 具 体 来 说 ， 我 们 讨论 云 中 的 语义 Web 数据 管理 。 本 章 在 00.7 节 中 进行 总 结 。 应 
该 注意 的 是 ， 第 7 章 讨论 的 专用 Web 服务 可 以 用 于 云 数 据 管理 服务 ， 包 括 云 存储 服务 、 
云 查 询 服务 和 云 事务 服务 。 商 业 云 数 据 管理 产品 将 在 第 21 章 讨论 。 图 10. 1 说 明了 本 章 


中 讨论 的 主题 。 


| 数据 模型 | 架构 | 功能 数据 挖 据 



























































































































































图 10.1 云 数据 管理 
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10.2 关系 数据 模型 





一 般 来 说 ， 数 据 模 型 的 目的 尽 可 能 准确 、 完 整 、 自 然 地 表示 世界 信息 (WARES 
考 文献 [TSIC82] ) 。 本 节 中 ， 我 们 将 讨论 关系 数据 模型 的 要 点 ， 因 为 它 是 当今 使 用 最 
广泛 的 模型 。 使 用 关系 模型 ( 见 本 章 参 考 文献 [CODD70] ) ， 数 据 库 被 视 为 关系 的 集 
合 。 每 个 关系 都 有 属性 和 行 。 例 如 ， 图 10. 2 为 两 个 关系 数据 库 ， 即 EMP 和 DEPT, 
EMP 有 4 个 属性 ， SS#, Ename, Salary 和 D#, DEPT 有 3 个 属性 : D#、Dname 和 Mgr, 
EMP 有 三 行 ， 也 称 为 元 组 ， 而 DEPT 有 两 行 ， 每 行 都 由 其 主键 唯一 标识 。 例 如 ，SS# 可 
以 是 EMP 的 主键 ，D# 可 以 是 DEPT 的 主键 。 关 系 模 型 的 另 一 个 关键 特征 是 关系 中 的 每 
个 元 素 都 是 原子 类 型 值 ， 例 如 整 型 或 字符 串 。 也 就 是 说 ， 不 文 持 像 列 表 之 类 的 复杂 值 。 







































































EMP DEPT 
Ename Salary D# Dname Megr 
John 20k 10 Math Smith 
Paul 30k 20 Physics Jones 
3 Mary 40k 20 


























图 10.2 关系 数据 库 

各 种 操作 都 是 在 关系 上 进行 的 。SELECT 操作 选择 满足 某 些 条 件 的 行 的 子 集 。 例 
如 ， 在 关系 EMP 中 ， 可 以 选择 工资 大 于 2 万 (20k) 的 行 。 投 影 操 作 将 关系 投影 到 某 些 
属性 上 。 例 如 ， 在 关系 EMP 中 ， 可 以 投射 到 属性 Ename 和 Salary 上 。 连 接 操 作对 两 个 
关系 的 一 些 常见 属性 进行 连接 。 这 些 操作 的 详细 讨论 在 本 章 参考 文献 [ DATE90] 和 
[ULLM88] 中 给 出 。 

多 种 操作 关系 的 语言 已 经 被 提出 。 在 这 些 语 言 中 最 出 名 的 是 ANSI (美国 国家 标准 
学 会 ) 标准 SQL (结构 化 查询 语言 ) 。 该 语言 用 于 访问 和 操作 关系 数据 库 中 的 数据 。 
DBMS 提供 商 和 用 户 广泛 接受 此 标准 。 它 文 持 模式 定义 、 检 索 、 数 据 处 理 、 模 式 操 作 、 
事务 管理 、 完 整 性 和 安全 性 。 其 他 语言 有 加 州 大 学 伯克利 分 校 INGRES 项 目 首次 提出 的 
关系 演算 ( 见 本 章 参考 文献 【DATE90 ] ) 。 关 系数 据 库 中 的 另 一 个 重要 概念 是 视图 。 视 
图 本 质 上 是 虚拟 关系 ， 由 数据 库 中 的 关系 组 成 。 

我 们 今天 所 面临 的 挑战 是 提出 适合 云端 关系 模型 的 版 本 。Oracle 等 提供 商 正 在 构建 
基于 云 的 关系 数据 库 系统 ， 如 MySQL 之 类 的 系统 正在 云 中 实现 。 亚 马 逊 开发 了 Dyna- 
moDB 数据 库 。 正 如 亚马逊 所 说 ， DynamoDB 是 一 个 完全 托管 的 数据 库 ， NoSQL 数据 库 
服务 可 以 提供 快速 的 、 可 预期 的 性 能 ， 并 且 可 以 实现 无 颖 扩展 ,在 AWS (Amazon Web 
Services) 管理 控制 台中 点 击 几 下 ， 客 户 便 可 以 启动 一 个 新 的 Amazon DynamoDB 数据 库 
表 ， 在 不 会 出 现 停机 或 性 能 下 降 的 情况 下 扩展 或 降低 对 表 的 请 求 容量 ， 并 且 也 可 以 查看 
资源 利用 率 和 人 性 能 指标 。 研 究 人 员 正 在 研究 在 云 中 托管 这 种 数据 库 的 方法 。 另 外 ， 专 门 
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为 云 开发 的 专用 数据 模型 也 正在 探索 中 。 


10.3 体系 结构 问题 


本 节 介 绍 数据 库 系 统 的 体系 结构 ， 并 研究 云 的 影响 。 首 先 ， 我 们 说 明 一 个 数据 库 系 
统 的 集中 式 体 系 结构 。 然 后 ， 我 们 描述 一 个 分 布 式 数据 库 体 系 结构 。 图 10. 3 是 集中 式 





体系 结构 的 一 个 例子 。 这 里 ，DBMS 是 一 个 单一 的 实体 ， 它 管 








| 数据库 管理 系统 











理 一 个 集中 的 数据 库 。 功 能 架构 说 明了 DBMS 的 功能 模块 。 
DBMS 的 主要 模块 包括 查询 处 理 器 、 事 务 管理 器 、 元 数据 管理 
器 、 存 储 管理 器 、 完 整 性 管理 器 和 安全 管理 器 。 集 中 式 数 据 库 



































数据 库 


系统 体系 结构 (ULIS 10.3). 的 DBMS 组 件 的 功能 架构 如 图 10. 4 图 10.3 集中 式 体 系 结构 


所 示 。 | 
虽然 已 经 给 出 了 分 布 式 数据 库 系统 的 许多 定 











义 ， 但 是 还 没有 标准 定义 。 我 们 对 分 布 式 数据 库 | 查询 处 理 器 








| 事务 处 理 器 





系统 概念 和 问题 的 讨论 受到 本 章 参 考 文献 





[CERIS4] 的 影响 。 分 布 式 数据 库 系 统 包 括 DD- | 元 数据 管理 器 存储 管理 器 











BMS 、 分 布 式 数 据 库 和 用 于 通信 的 网 络 。DDBMS 























管理 分 布 式 数据 库 。 分 布 式 数据 库 是 分 布 在 多 个 | eres 








| 安全 性 管理 器 





数据 库 中 的 数据 。 我 们 选择 的 分 布 式 数据 库 系 统 
体系 结构 是 一 个 多 数据 库 架 构 ， 它 是 紧密 耦合 11034 





DBMS 的 功能 架构 


的 。 该 体系 结构 如 图 10.5 所 示 。 选 择 这 样 的 架构 ， 就 可 以 解释 基于 这 种 方法 的 同 构 和 





异 构 系统 的 概念 。 在 此 架构 中 ， 方 点 通过 通信 子 系统 连接 ， 本 地 








应 用 程序 由 本 地 DBMS 





处 理 。 此 外 ， 每 个 节点 还 涉及 至 少 一 个 全 局 应 用 程序 ， 因 此 在 此 架构 中 没有 集中 控制 。 


























DBMS 通过 称 为 分 布 式 处 理 器 (DP) 的 组 件 连接 。 在 同 构 环 境 ， 
的 ， 而 在 异 构 环境 中 ， 本 地 DBMS 可 能 是 异 构 的 。 


网 络 


全 局 用 户 









， 本 地 DBMS 是 同 构 























分 布 式 处 理 器 分 布 式 处 理 器 分 布 式 处 理 器 
本 地 用 户 | 
数据 库 数据 库 数据 库 
管理 系统 管理 系统 管理 系统 








图 10.5 一 个 DDBMS 体系 结构 








分 布 式 数据 库 系统 功能 包括 分 布 式 查询 处 理 、 


以 及 跨 多 个 节点 实施 安全 性 和 完整 性 。 分 布 式 处 理 器 (Distributed Processor, DP) 是 
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分 布 式 事 务 管理 、 分 布 式 元 数据 管理 

















DBMS。 也 就 是 说 ， 每 个 本 地 DBMS 均 由 DP H 


DDBMS 的 重要 组 成 部 分 ， 这 个 模块 连接 本 地 不 同 的 EC E 
分 布 式 查询 分 布 式 事 
iss 处 理 器 务 管理 器 

DP 的 模块 如 图 10.6 所 示 。 其 组 件 有 分 布 式 元 数据 管 


ota adate as Z 9 
EZ% (Distributed Metadata Manager, DMM), 4 fp x 分 布 式 元 
分 数据 管理 器 


布 式 事 务 管 理 需 ( Distributed Transaction Manager, 


DIM) 、 分 布 式 安全 管理 吉 (Distributed Security Man- 分 布 式 安 giza 
h- | 全 管理 器 1 di 


tegrity Manager, DIM), DMM 管理 全 局 元 数据 。 全 局 " 
元 数据 包括 有 关 模 式 的 信息 ， 其 中 描述 了 分 布 式 数据 F110: G. DP ATRA 


查询 处 理 需 (Distributed Query Processing, DQP) , 





ager, DSM) 和 分 布 式 完 整 性 管理 器 (Distributed 


























库 中 的 关系 、 关 系 分 段 的 方式 、 分 段 的 位 置 以 及 强制 执行 的 约束 ; DOP 负责 分 布 式 查 
询 处 理 ; DTM 负责 分 布 式 事务 管理 ，DSM 负责 执行 全 局 安全 约束 ; DIM 负责 在 全 局 层 














保持 完整 性 。 应 注意 的 是 ，DP 的 模块 与 远程 节 








点 的 对 等 体 通信 。 例如， 节点 1 处 的 


DQP 与 节点 2 处 的 DQP 进行 通信 ， 用 于 处 理 分 布 式 查询 。 
研究 人 员 面 临 的 挑战 是 为 云 提供 一 个 合适 的 体系 结构 。 例 如 ， 在 集中 式 体系 结构 的 
情况 下 ， 所 有 数据 都 可 以 托管 在 一 个 服务 器 上 ， 也 可 以 在 多 个 服务 器 上 进行 处 理 。 这 种 












































方式 不 能 充分 利用 云 提供 的 功能 。 在 分 布 式 数据 库 情 况 下 ， 数 据 库 的 每 个 片段 都 可 以 存 
储 在 服务 器 上 。 虽 然 这 可 能 会 更 好 地 利用 云 ， 但 它 并 没有 提高 资源 利用 率 。 云 数据 库 体 






































系 结构 必须 有 效 地 使 用 资源 利用 率 ， 并 以 最 大 限度 存储 数据 。 包 括 IBM, Oracle #il Mi- 
crosoft 在 内 的 多 个 数据 库 供 应 商 正在 探索 云 数据 管理 架构 。 














10.4 DBMS 功能 


10.4.1 简介 





DBMS 的 功能 架构 如 图 10.4 所 示 ( 男 见 本 章 参 考 文献 [ ULLM88]), DBMS 的 功能 











是 执行 其 操作 。DBMS 从 根本 上 管理 数据 库 ， 并 能 够 支持 用 户 查 询 和 更 新 数据 库 。 因 





JE, DBMS 的 基本 功能 是 查询 处 理 和 更 新 处 理 。 在 某 些 应 用 程序 中 ， 例 如 银行 ,查询 和 








更 新 是 作为 事务 的 一 部 分 发 布 的 。 因 此 ， 事 务 管理 
这 些 功能 ， 必 须 保 持 关 于 数据 库 中 的 数据 的 信息 ， 























也 是 DBMS 的 另 一 个 功能 。 为 了 执行 
此 信息 称 为 元 数据 。 与 管理 元 数据 相 








关 的 功能 是 元 数据 管理 。 需 要 专门 的 技术 来 管理 实际 存储 数据 的 空间 ， 与 管理 这 些 技术 
相关 的 功能 是 存储 管理 。 为 了 确保 上 述 功 能 正确 执行 ， 保 证 用 户 获取 数据 的 准确 性 ， 我 
们 还 需要 一 些 另 外 的 功能 ， 这 些 包 括 安 全 管理 、 完 整 性 管理 和 故障 管理 〈 即 容错 ) 。 
本 节 重 点 介绍 DBMS 的 一 些 核心 功能 ， 分 别 是 查询 处 理 、 事 务 管 理 、 元 数据 管理 、 
存储 管理 、 完 整 性 维护 和 容错 。 这 些 功 能 将 在 10.4.2 ~ 10.4.7 WE., Æ 10.4.6 节 
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iz 


中 ， 还 将 讨论 云 的 影响 。 图 10.7 说 明了 本 节 中 讨论 的 概念 。 


数据 库 管 理 


系统 功能 








查询 处 理 | | 事务 管理 























存储 管理 m | xs | 容错 性 





图 10.7 数据 库 管 理 系统 功能 





10. 4.2 查询 处 理 


查询 操作 是 DBMS 中 最 常用 的 功能 。 用 户 可 以 查询 数据 库 并 获得 查询 结果 。 查 询 处 
理 有 以 下 两 个 方面 : 一 方面 是 需要 一 个 好 的 查询 语言 。SQL 等 语言 对 于 关系 数据 库 来 说 
很 受 欢 迎 。 这 种 语言 正在 扩展 用 于 其 他 类 型 的 数据 库 。 另 一 方面 是 用 于 查询 处 理 的 技 
术 。 人 们 已 经 提出 了 许多 算法 用 于 查询 处 理 ， 特 别 是 对 于 JOIN 操作 。 另 外 ,不 同 的 策 
略 也 可 以 执行 一 个 特定 的 查询 。 首 先 计 算 各 种 策略 的 开销 ， 然 后 通常 选择 开销 最 低 的 策 
略 用 来 执行 ， 这 个 过 程 称 为 查询 优化 。 开 销 通常 由 磁盘 访问 决定 ， 因 此 我 们 的 目标 是 在 
处 理 查询 时 应 最 大 限度 地 减少 磁盘 访问 。 
用 户 往往 使 用 他 们 喜欢 的 一 种 语言 进行 查询 。 该 语言 的 结构 必须 被 转换 成 数据 库 系 
统 所 理解 的 结构 ， 这 个 过 程 称 为 查询 转换 。 可 以 基于 不 同 模式 分 阶段 进行 查询 转换 。 例 
如 ， 基 于 外 部 模式 的 查询 ， 首 先 被 转换 为 关于 概念 模式 的 查询 ， 然 后 将 其 转换 为 物理 模 
式 的 查询 。 一 般 来 说 ， 转 换 过 程 中 使 用 的 规则 包括 通用 子 表达 式 的 分 解 ， 并 尽 可 能 地 在 
查询 树 中 将 选择 和 投影 向 下 推送 。 如 果 在 连接 之 前 执行 选择 和 投影 ， 连 接 的 开销 就 可 以 
减少 很 多 。 

查询 处 理 中 的 模块 如 图 10.8 所 示 。 用 户 接 口 管理 器 接受 查询 ， 解 析 查 询 ， 然 后 将 
其 提供 给 查询 转换 器 。 查 询 转换 器 和 查询 优化 器 相互 通信 以 产生 执行 策略 。 存 储 管理 器 
用 来 访问 数据 库 。 响 应 管理 需 向 用 户 做 出 响应 。 
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图 10.8 查询 处 到 
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有 关 云 查询 处 理 的 工作 已 经 开展 例如， 我 们 已 经 实现 了 使 用 Hadoop, Map/Re- 
duce 和 Hive 技术 的 云 查询 处 理 器 ， 具体 实现 技术 将 在 本 书 的 第 四 部 分 讨论 。 提 出 对 查 
询 处 理 相应 的 优化 策略 ， 是 实现 的 关键 。 这 将 取决 于 数据 如 何在 云 中 的 节点 之 间 进 行 存 
储 。 有 的 研究 人 员 还 研究 了 针对 云 中 面向 列 的 数据 库 ， 并 宣称 这 提供 了 更 高 的 性 能 。 在 
这 样 的 数据 库 中 ， 关 系 根据 列 分 段 ， 即 关系 的 每 列 构成 对 应 的 表 。 Composite Software 公 
司 的 研究 人 员 利 用 数据 虚拟 化 技术 为 云 开发 了 高 效 的 查询 算法 。 他 们 指出 ， 为 了 实现 高 
效 和 最 佳 查询 执行 ， 数 据 虚 拟 化 使 用 的 策略 包括 基于 成 本 的 查询 计划 评估 和 选择 、 基 于 
规则 的 查询 计划 修改 、 数 据 源 能 力 分 析 、 连 接 算 法 种 类 和 配置 、 选 择 池 和 传播 、 不 必要 
操作 的 精简 、 流 水 线 结果 流 、 并 行 扫描 执行 和 检索 、 限 制 操作 员 预 处 理 和 宛 余 扫描 复 用 
等 。 这 些 基 本 上 都 要 利用 云 ， 并 且 必 须 充 分 利用 并 行 查询 处 理 。 

Kantarcioglu 等 人 已 经 研究 了 云 查 询 处 理 的 问题 。 在 他 们 的 工作 中 ， 云 查询 处 理 的 
主要 挑战 之 一 是 动态 资源 分 配 ( 见 本 章 参 考 文献 [ OKTA12 ] ) 。 与 传统 环境 不 同 ， 云 基 
础 设施 通常 允许 应 用 程序 动态 增加 或 减少 计算 资源 的 数量 。 这 可 能 对 查询 处 理 和 优化 的 
处 理 方式 有 重要 的 影响 。 例 如 ， 如 果 我 们 有 服务 约束 的 质量 保证 来 响应 查询 ， 我 们 可 以 
动态 添加 新 的 计算 资源 来 处 理 更 多 的 数据 。 同 时 ， 一旦 我 们 不 需要 新 的 计算 资源 ， 我 们 
就 可 以 减少 计算 资源 的 使 用 。 显然 ， 这 种 动态 分 配 需要 一 些 开 销 。 例如 ， 在 Amazon 
EC2 上 ,使 用 更 多 的 机 器 意味 着 会 为 这 些 机 器 支付 更 多 的 费用 。 此 外 ， 加 载 这 些 机 器 的 
镜像 ， 并 把 必要 的 数据 移动 到 新 启动 的 机 器 上 将 需要 一 些 时 间 。 因 此 ， 当 查询 优化 完成 
时 ， 就 应 考虑 此 类 开销 。 为 了 解决 这 些 问题 ， 作 者 已 经 修改 了 现 有 的 查询 优化 技术 ， 以 
在 优质 服务 约束 中 包含 了 动态 资源 分 配 开销 。 


10.4.3 事务 管理 


事务 是 一 个 程序 单元 ， 必 须 完全 执行 或 根本 不 执行 。 如 果 事 务 串 行 执行 ， 那 么 就 会 
出 现 性 能 瓶颈 。 因 此 ， 事 务 要 并 发 执行 。 当 多 个 事务 更 新 数据 库 时 ， 适 当 的 技术 必须 确 
保 数据 库 是 一 致 的 。 也 就 是 说 ， 事 务必 须 满足 ACID (原子 性 、 一 致 性 、 隔 离 和 耐久 
TE) 属性 。 事 务 管理 的 主要 方面 是 可 串 行 性 、 并 发 控制 和 恢复 。 我 们 在 本 节 中 对 此 进 
行 简要 讨论 。 关 于 事务 管理 的 详细 讨论 ， 可 以 参考 本 章 参 考 文献 [ KORT86] 和 
[BERN87] 。 

RITE: 调度 是 由 多 个 事务 执行 的 一 系列 操作 。 如 果 两 个 调度 的 结果 相同 ， 则 两 
个 调度 等 价 。 串 行 调 度 是 不 同时 执行 两 个 事务 的 调度 。 事 务 管理 的 目标 是 确保 任何 调度 
等 价 于 一 个 串 行 调度 。 这 样 的 调度 被 称 为 可 串 行 化 的 调度 。 现 在 已 经 为 DBMS 制定 了 用 
于 测试 调度 的 可 串 行 性 的 各 种 条 件 。 

并 发 控制 : 并 发 控制 技术 确保 当 多 个 事务 同时 更 新 数据 库 时 ， 数 据 库 要 保持 一 致 。 
确保 调度 可 串 行 化 的 三 种 流行 并 发 控制 技术 是 加 锁 、 时 间 蕉 和 验证 (也 称 为 乐观 并 发 
控制 ) 。 

恢复 : 如 果 事 务 由 于 某 些 故障 而 中 止 ， 则 必须 使 数据 库 与 初始 状态 处 于 一 致 ， 这 是 
事务 恢复 。 处 理事 务 故 障 的 一 个 解决 方案 是 维护 日 志文 件 。 事 务 的 动作 记录 在 日 志文 件 
147 




































































































































































































































































(1 去 计算 开发 与 安全 


|— 

















中 。 因 此 ， 如 果 事 务 中 止 ， 则 通过 撤销 事务 的 操作 就 将 数据 库 恢 复 到 一 致 状态 。 撤 销 操 
作 的 信息 在 日 志文 件 中 。 男 一 个 解决 方案 是 记录 事务 的 动作 ， 但 不 会 对 数据 库 进行 任何 
更 改 。 只 有 当 事 务 提交 时 ， 数 据 库 才能 被 更 新 。 这 意味 着 日 志文 件 必须 被 稳定 地 存储 。 
另外 ， 对 上 述 技术 的 各 种 修改 也 已 经 被 提出 来 ， 用 于 处 理 不 同 的 情况 。 

当 事 务 在 多 个 数据 源 中 执行 时 ， 则 使 用 称 为 “两 阶段 提交 ”的 协议 来 确保 多 个 数 
据 源 是 一 致 的 。 图 10. 9 说 明了 事务 管理 的 各 个 方面 。 

关于 云 中 事务 处 理 的 一 些 工 作 已 经 开展 ， 最 引 人 注 目的 是 约翰 内 斯 . 格 尔 克 (Jo- 
hannes Gehrke) 。 他 表示 ， 云 数据 管理 所 面临 的 主要 挑战 是 扩展 和 访问 〈 见 本 章 参 考 文 
Bk [GEHR11] ) 。 虽 然 基 于 锁 的 实现 在 传统 信息 访问 系统 (比如 数据 库 系 统 和 搜索 引 
擎 ) 中 占 主 导 地 位 ， 但 是 出 现 了 基于 乐观 并 发 控制 ( Optimistic Concurrency Control , 
OCC) 的 云 系统 。 然 而 ， 我 们 不 知道 基于 锁 或 基于 OCC 的 信息 访问 在 云 中 是 否 有 优势 ， 
没有 系统 的 科学 研究 可 以 给 云 系统 设计 人 员 一 个 准确 的 答案 。 格 尔 克 和 他 的 同事 正在 研 
究 基 于 锁 和 OCC 的 新 型 云 架构 。 随 着 事务 率 的 增加 ， 这 种 架构 平稳 扩展 (资源 占用 与 
系统 负载 成 比例 ) ， 并 可 与 云 查 询 管理 器 无 颖 连接 ， 而 且 可 通过 查询 和 事务 实现 不 同 级 
别 的 隔离 。 
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图 10.9 事务 管理 的 一 些 方面 








10.4.4 存储 管理 


存储 管理 器 负责 访问 数据 库 。 为 了 提高 查询 和 更 新 算法 的 效率 ， 必 须 执 行 适当 的 访 
问 方法 和 索引 策略 。 也 就 是 说 ， 在 生成 执行 查询 和 更 新 请 求 的 策略 时 ， 需 要 考虑 使 用 的 
访问 方法 和 索引 策略 。 用 于 访问 数据 库 的 访问 方法 将 取决 于 索引 方法 。 因 此 ， 创 建 和 维 
护 适 当 的 索引 文件 是 数据 库 管 理 系 统 中 的 一 个 重要 问题 。 通 过 使 用 适当 的 索引 机 制 ， 查 
询 处 理 算 法 可 不 必 搜 索 整 个 数据 库 。 相 反 ， 可 以 直接 访问 将 要 检索 的 数据 。 因 此 ， 检 索 
算法 更 有 效率 。 图 10. 10 为 一 个 索引 策略 的 示例 ， 其 中 数据 库 根 据 项 目 进行 索引 。 

人 们 对 关系 数据 库 系 统 开发 适当 的 访问 方法 和 索引 策略 进行 了 大 量 研 究 。10 - 树 和 
Wear 〈 见 本 章 参 考 文献 [DATE90]) 是 索引 策略 的 示例 。 目 前 的 研究 重点 是 开发 面向 
对 象 数据 库 系统 的 这 种 索引 机 制 ， 以 支持 多 媒体 数据 以 及 Web 数据 库 系统 等 。 

为 云 提 供 适 当 的 存储 策略 ， 是 开发 人 员 和 研究 人 员 面 临 的 挑战 。 数 据 如 何 分 散在 云 
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中 的 不 同 节 点 上 ? 如 何 利用 数据 虚拟 
化 来 提供 最 佳 的 存储 空间 ? 
Kantarcioglu 和 Mehrotra 为 混合 云 开发 
了 引 人 关 注 的 存储 方案 。 在 本 章 参 考 
文献 [ OKTAI2] 中 他 们 指出 ， 云 计 
算 的 新 兴 趋 势 是 混合 云 ， 云 中 终端 用 
户 站 点 的 内 部 功能 /资源 将 与 云 服 务 
无 颖 集成 ， 以 生成 强大 的 、 经 济 高 效 
的 数据 处 理解 决 方案 。 混 合 云 的 解决 
方案 为 云 计算 提供 了 类 似 的 优势 ， 例 
如 ， 高 输出 时 使 用 公共 资源 的 能 力 对 
于 即 付 即 用 (而 不 是 为 内 部 峰值 负 
载 创 建 基础 设施 的 资本 成 本 ) 的 模 
式 非常 重要 。 然 而 ,它们 提供 了 更 好 地 控制 成 本 的 机 会 (例如 ， 如 果 本 地 资源 足够， 
所 使 用 的 云 资源 就 最 小 化 ) ， 并 且 更 好 地 管理 数据 的 隐私 和 机 密 性 (例如 ， 对 什么 信息 
和 处 理 可 以 公开 于 公有 云 上 进行 控制 ) 。 例 如 ， 最 终 用 户 可 以 根据 私有 云 上 的 敏感 信息 
运行 关键 任务 ， 同 时 将 日 常任 务 外 包 给 公有 云 。Kantarcioglu 及 其 同事 正在 探索 解决 混合 
云 背 景 下 的 信息 管理 挑战 ， 并 提出 解决 这 些 挑战 的 新 颖 解决 方案 。 

Kantarcioglu 和 Mehrotra 指出 ， 混 合 云 中 的 信息 管理 可 能 以 多 种 方式 利用 公共 资源 。 
例如 ， 可 以 在 公共 和 私有 系统 之 间 划 分 查询 工作 量 ， 以 通过 利用 查询 间 的 并 行 性 来 最 大 
化 系统 的 吞 叶 量 。 在 给 定 查 询 (内 部 查询 并 行 性 ) 的 环境 中 ， 也 可 以 进一步 利用 混合 
云 提 供 的 固有 并 行 性 ， 即 使 这 样 的 策略 可 能 导致 额外 的 网 络 成 本 。 在 考虑 混合 云 架构 中 
的 各 种 策略 时 ， 我 们 还 需要 考虑 成 本 和 资源 限制 。 云 服务 提供 商 通常 支持 有 竞争 力 的 成 
本 模型 ， 并 为 终端 用 户 提供 不 同 的 服务 等 级 协议 (SLA) 来 进行 数据 存储 和 处 理 。 例 
W, AWS 提供 了 一 种 分 层 定价 模式 ， 使 用 数据 和 处 理 服务 越 多 ， 价 格 就 越 便 宜 。AWS 
还 为 弹性 计算 云 (Elastic Compute Cloud, EC2) 或 简单 存储 服务 (Simple StorageService , 
S3) 提供 SLA, WR ith A fe IA BI BD 99% 的 时 间 承 诡 ， 那 么 就 要 返回 给 用 户 
10% ~25% 的 月 费 。 类 似 的 分 层 定 价 模型 和 SLA 也 由 其 他 云 服务 提供 商 ( 例 如，Mi- 
crosoft Windows Azure 和 Google App Engine) 提供 。 利 用 这 种 混合 云 架构 的 信息 管理 系统 
存在 几 个 关键 问题 。 第 一 个 问题 是 如 何 将 信息 存储 在 混合 云 中 ? 一 个 好 的 解决 方案 必须 
考虑 到 所 选择 的 数据 表示 策略 、 与 存储 基础 设施 相关 的 经 济 成 本 和 查询 工作 量 特征 。 第 
二 个 问题 是 在 这 种 分 布 式 架构 中 的 有 效 查 询 处 理 。 他 们 正在 通过 为 混合 云 开发 适当 的 存 
储 模型 来 探索 解决 这 些 问 题 。 


10.4.5 元 数据 管理 


元 数据 描述 数据 库 中 的 数据 。 例 如 ， 在 图 10.2 所 示 的 关系 数据 库 的 情况 下 ， 元 数 
据 包 括 以 下 信息 : 数据 库 有 两 个 关系 分 别 为 EMP 和 DEPT, EMP 有 4 个 属性 ，DEPT 有 
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图 10.10 项 目 索 引 实 例 
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3 个 属性 等 。 主 要 问题 之 一 是 为 元 数据 开发 

































































一 个 数据 模型 。 在 我 们 的 示例 中 ， 也 可 以 将 AREE 

关系 模型 套用 于 元 数据 中 。 图 10. 11 所 示 的 关系 属性 

元 数据 关系 REL 由 关系 和 属性 的 信息 组 成 。 EMP SS# 
除了 关于 数据 库 中 数据 的 信息 之 外 ,元 | 

数据 还 包括 有 关 访 问 方法 、 索 引 策略 、 安 全 

约束 和 完整 性 约束 的 信息 。 还 可 以 将 策略 和 | Salary 

程序 作为 元 数据 的 一 部 分 。 一 旦 定义 了 元 数 | EMP D# 

据 ， 就 会 出 现 管理 元 数据 的 问题 。 查 询 和 更 | DEPT D# 

新 元 数据 的 技术 是 什么 ? 由 于 所 有 其 他 Soo ar 

DBMS 组 件 为 了 进行 处 理 问题 都 需要 访问 元 

数据 ， 那 么 元 数据 管理 器 和 其 他 组 件 之 间 的 “| 2 Mgr 








接口 是 什么 ?对 于 关系 数据 库 系统 ， 元 数据 — mà 
管理 比较 好 理解 。 当 前 的 挑战 在 于 如 何 管理 
更 复杂 系统 的 元 数据 ， 比 如 数字 图 书馆 和 网 络 数据 库 系统 等 。 

云 中 的 元 数据 管理 不 仅 包括 有 关 数据 和 云 中 资源 的 信息 ， 还 包括 有 关 用 户 账户 、 使 
用 模式 、SLA 和 其 他 云 特定 的 信息 。 因 此 ， 使 用 适当 的 模型 来 存储 和 管理 云 中 的 元 数据 
还 需要 做 大 量 的 工作 。 


10.4.6 数据 库 完整 性 


并 发 控制 和 恢复 技术 可 以 保持 数据 库 的 完整 性 。 此 外 ， 还 有 另 一 种 类 型 是 强制 完整 
性 约束 来 保持 数据 库 的 完整 性 。 在 数据 库 系统 中 强制 执行 的 完整 性 约束 有 两 种 类 型 : 独 
立 于 应 用 的 完整 性 约束 和 特定 于 应 用 程序 的 完整 性 约束 。 完 整 性 机 制 还 包括 确定 数据 质 
量 的 技术 。 例 如 ， 数 据 和 数据 源 的 准确 度 是 多 少 ? 保持 数据 质量 的 机 制 是 什么 ? 输出 数 
据 的 准确 度 如 何 ? 关于 基于 数据 质量 的 完整 性 的 讨论 ， 请 参考 本 章 参 考 文献 [DQ]. 9 
要 注意 的 是 ， 数 据 质量 对 数据 挖掘 和 数据 仓库 来 说 非常 重要 。 如 果 挖 掘 的 数据 不 好 ， 则 
不 能 信赖 其 结果 。 独 立 于 应 用 程序 的 完整 性 约束 包括 主键 约束 、 实 体 完 整 性 规则 、 参 照 
完整 性 约束 以 及 归 一 化 过 程 中 涉及 的 各 种 功能 依赖 性 (参见 本 章 参 考 文献 [ DATE90 ] 
中 的 讨论 ) 。 应 用 程序 特定 的 完整 性 约束 是 特定 于 应 用 程序 的 约束 。 示 例 包括 “员工 的 
工资 不 能 减少 ”和 “没有 经 理 可 以 管理 两 个 以 上 的 部 门 ”。 人 们 已 经 提出 了 各 种 技术 来 
强制 执行 特定 于 应 用 程序 的 完整 性 约束 。 例 如 ， 当 更 新 数据 库 时 ， 将 检查 这 些 约束 并 检 
验 数据 。 数 据 库 完整 性 包括 的 方面 如 图 10. 12 所 示 。 

目前 已 经 开展 了 相关 云 中 数据 库 完整 性 的 一 些 研究 工作 ， 这 些 工作 基于 数据 来 源 和 
类 别 。 例 如 ， 云 中 的 数据 可 能 会 在 一 段 时 间 内 来 自 多 个 来 源 。 因 此 ， 保 持 数据 的 来 源 至 
关 重 要 。 其 他 挑战 包括 执行 适当 的 完整 性 约束 。 也 就 是 说 ， 如 何在 数据 虚拟 化 的 云端 执 
行 完 整 性 约束 ? 人们 仍 需 要 对 云 中 的 数据 完整 性 进行 大 量 研究 。 
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数据 库 完整 性 
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和 恢复 完整 性 约束 || 的 完整 性 约束 | | 数据 库 质 量 























图 10.12 数据库 完 整 性 的 一 些 方面 





10.4.7 容错 


Eod 了 数据 库 的 完整 性 和 安全 性 ， 与 其 密切 相关 的 特征 是 容错 。 我 们 几乎 

能 保证 数据 库 将 一 直 按 计划 运行 。 实 际 上 可 能 会 发 生 各 种 故障 。 这 些 可 能 是 硬件 故 
E au LU ctu a 
下 恢复 到 一 致 状态 。 所 提出 的 解决 方案 包括 维护 适当 的 日 志文 件 记录 事务 的 动作 ， 以 预 
防 出 现 其 动作 必须 被 撤销 的 情况 。 

处 理 故障 的 另 一 种 方法 是 检查 点 技术 。 在 数据 库 
处 理 过 程 中 会 建立 各 种 检查 点 。 在 每 个 检查 点 ， 确 保 检查 点 A 开 始 处 理 
数据 库 处 于 一 致 状态 。 因 此 ， 如 果 在 处 理 过 程 中 出 现 二 
故障 ， 则 必须 将 数据 库 恢复 至 上 一 个 检查 点 的 正常 状 检查 点 A 验收 测试 如 果 OK， 
态 。 这 样 可 以 保证 数据 库 是 一 致 的 。 与 检查 点 密切 相 TEN 
关 的 是 验收 测试 。 在 各 种 处 理 步骤 之 后 ， 进 行 验收 测 


试 。 如 果 通 过 测试 ， 那 么 它们 就 可 以 进行 下 一 步 。 容 
2 A AB 理 
错 包括 的 内 容 如 图 10. 13 所 示 。 RENAR 


确保 云端 持续 运行 是 云 服务 提供 商 面临 的 主要 挑 SE eae 
战 之 一 。SLA 通常 指定 云 的 运行 方式 以 及 维护 时 间 。 ” 
因此 ， 确 保 云 数据 库 的 备份 和 开发 适当 的 容错 解决 方 
案 至 关 重 要 。 这 个 话题 在 我 们 处 理 值 得 信赖 的 云 时 ， 也 就 是 在 本 书 的 第 八 部 分 进一步 


讨论 。 
10.5 数据 挖掘 


数据 挖掘 是 从 各 种 查询 和 数据 库存 储 的 大 量 数据 中 提取 有 用 的 信息 、 模 式 和 以 前 未 

知 的 趋势 的 过 程 。 实 际 上 ， 对 于 许多 组 织 机 构 来 说 ， 数 据 挖掘 的 目标 包括 改进 营销 能 

力 、 检 测 异 常 模式 ， 并 根据 以 往 经 验 和 当前 趋势 预测 未 来 。 很 显然 这 种 技术 是 需要 的 。 

随 着 大 量 当 前 和 历史 数据 被 存储 ， 数 据 库 变 得 越 来 越 大 ， 因 此 越 来 越 难以 支持 决策 制 

定 。 另 外 ， 数 据 可 能 来 自 多 个 信息 源 和 多 个 域 。 因 此 ， 分 析 数 据 来 支持 企业 的 规划 和 其 
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他 功能 也 是 需要 的 。 这 种 分 析 数 据 的 技术 就 是 数据 挖 据 。 目 前 各 种 术语 被 用 来 指 代数 据 
挖掘 ， 这 些 术 语 包 括 知 识 / 数 据 /信息 发 现 和 知识 /数据 /信息 提取 。 需 要 注意 的 是 ， 有 些 
人 定义 数据 挖掘 为 提取 以 前 未 知 信 息 的 过 程 ， 而 知识 发 现 被 定义 为 解读 已 经 提取 的 信息 








的 过 程 。 














一 些 数据 挖掘 技术 包括 基于 统计 推理 技术 、 归 纳 逻 辑 编程 、 机 器 学 习 、 模 糊 集 和 神 
经 网 络 的 技术 。 数 据 挖掘 的 结果 包括 分 类 (查找 将 数据 分 成 组 的 规则 ) 、 关 联 (查找 数 
据 之 间 的 关联 规则 ) 和 排序 (查找 排序 的 规则 ) 。 从 本 质 上 说 ， 人 们 获得 了 一 些 假设 ， 
即 从 所 观察 到 的 例子 和 模式 中 提取 的 信息 。 这 些 模式 从 一 系列 查询 中 可 被 观察 到 ， 每 个 
查询 依赖 于 从 先前 提出 的 查询 获得 的 响应 。 数 据 挖掘 已 经 有 了 几 个 发 展 阶段 。 各 种 工具 
的 论述 在 本 章 参考 文献 [KDN] 中 给 出 。 在 本 章 参 考 文献 [ AGRA93] 和 [BERR97 ] 





























中 很 好 地 给 出 了 对 结果 和 技术 的 讨论 。 














数据 挖掘 是 多 种 技术 的 集成 。 这 些 包 括 数据 管理 ， 如 数据 库 管 理 、 数 据 仓库 、 统 
计 、 机 器 学 习 、 决 策 支 持 以 及 比如 可 视 化 和 并 行 计算 之 类 的 数据 管理 。 数 据 挖 气 有 一 系 


列 步 又 。 这 些 包括 获取 要 挖掘 的 数据 、 确 定 挖掘 的 结果 、 选 择 挖 掘 的 工具 、 进 行 挖 所 














精简 结果 ， 以 使 有 用 的 数据 被 进一步 考虑 ， 从 挖掘 中 采取 措施 ， 并 评估 这 些 行为 带 来 的 


好 处 。 








对 于 数据 挖掘 ， 虽 然 已 经 取得 了 一 些 进展 ， 但 仍然 面临 许多 挑 成 。 例 如 ， 由 于 数据 
量 大 ， 算 法 将 如 何 确定 要 选择 哪 种 技术 ， 以 及 要 采取 哪 种 类 型 的 数据 挖掘 ? 此 外 ， 数 据 





可 能 不 完整 或 不 准确 。 有 时 可 能 有 宛 余 的 信 ， 

















复 ， 有 时 也 可 能 没有 足够 的 信息 。 还 需要 有 





可 以 切换 多 种 技术 、 并 支持 多 种 结果 的 数据 挖掘 工具 。 关 于 数据 挖掘 的 一 些 当 前 的 研究 
趋势 ， 包 括 挖掘 网 络 数 据 、 挖 气 分 布 式 和 蜡 构 数 据 库 ， 以 及 隐私 保护 数据 控 据 ， 它 可 以 








确保 人 们 从 挖掘 中 获得 有 用 的 结果 ， 同 时 又 
的 各 个 方面 。 


保护 个 人 的 隐私 。 图 10. 14 为 数据 挖掘 包括 





数据 挖掘 的 各 个 方面 








关联 
异常 检测 
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图 10. 14 ”关于 数据 挖掘 的 各 个 方面 
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随 着 大 数据 分 析 的 出 现 ， 云 数据 挖 据 正在 成 为 一 个 重要 的 领域 。 相 对 于 并 行 数据 挖 
掘 的 性 能 ， 数 据 挖掘 算法 研究 得 到 了 增强 。 这 里 的 挑战 是 在 云 上 实现 这 些 并 行 数据 挖掘 
技术 。 需 要 注意 的 是 ， 并 行 /分 布 式 数据 库 与 去 数据库 之 间 的 差异 在 于 : 通过 云 ， 可 以 
迁移 数据 以 获得 更 好 的 资源 利用 率 。 因 此 ， 数 据 挖掘 算法 应 该 考虑 数据 的 位 置 迁移 。 




















10.6 其 他 方面 














网 络 用 户 的 爆炸 式 增长 ， 以 及 万 维 网 服务 器 数量 的 日 益 增 加 ， 正 在 迅速 推动 网 络 上 数 
据 库 管理 的 发 展 。 因 此 ， 各 种 各 样 的 信息 源 必 须 被 集成 ， 以 便 用 户 以 透明 和 及 时 的 方式 访 
问 服务 器 。 增 加 人 类 推理 、 解 释 和 决策 能 力 的 需求 导致 了 语义 Web 的 出 现 ， 这 是 一 个 学 
试 将 网 络 从 目前 的 、 只 有 人 类 可 读 的 形式 转变 为 机 器 可 处 理 形式 的 措施 。 已 出 现 的 语义 
Web 技术 被 用 来 管理 网 络 和 云端 的 大 量 数据 。 这 些 技术 包括 XML, RDF 和 OWL. 

我 们 开发 了 用 于 管理 云 中 语义 Web 数据 的 实验 系统 ， 还 开发 了 语义 Web 数据 的 查询 
优化 器 。 这 些 查询 优化 器 已 在 云 上 实现 。 此 外 ,我们 正在 研究 在 云 中 进行 管理 的 社交 网 
络 。 本 书 将 在 第 四 部 分 中 讲述 在 云 中 查询 处 理 与 语义 Web 数据 相关 的 实验 工作 。 语 义 云 
是 利用 语义 Web BOR (例如 ,管理 大 量 的 语义 Web 数据 以 及 执行 以 语义 Web 语言 表示 的 
策略 ) 的 云 。 可 以 利用 第 6 章 中 提 到 的 语义 Web 服务 概念 为 消费 者 提供 语义 云 服 务 。 

云 也 适合 提供 知识 管理 服务 。 越 来 越 多 的 知识 来 自 不 同 数据 源 的 在 线 分 析 ， 例 如 组 
织 机 构 数 据 、 大 规模 监测 或 调查 数据 以 及 社交 数据 流 。 通 常 ， 分 析 的 数据 集 非常 大 。 男 
外 ， 它 们 通常 由 组 织 机 构 内 的 不 同 组 收集 ， 由 不 同 的 管理 人 员 和 访问 策略 管理 ， 并 且 维 
护 在 不 同类 型 的 数据 存储 库 (例如 ， 关 系数 据 库 、RDF 存储 ) 中 。 此 外 ， 它 们 分 布 在 
多 个 站 点 之 间 ， 每 个 站 点 都 由 其 自己 的 计算 集群 支持 。 因 为 数据 量 的 大 小 和 与 之 相关 的 
管理 策略 ， 采 取 在 一 个 位 置 存储 所 有 数据 的 方法 是 不 切实 际 的 。 此 外 ， 公 司 的 知识 管理 
应 用 程序 (如 专家 查找 器 ) 可 能 需要 存储 大 量 数据 和 进行 大 规模 计算 。 因 此 ， 这 样 的 
操作 可 能 被 外 包 给 云 。 

云 也 对 我 们 在 第 7 章 中 讨论 的 其 他 方面 (如 活动 管理 ) 产生 影响 。 活 动 管理 (如 
协作 和 工作 流 以 及 电子 商务 ) 都 可 以 在 云 中 进行 。 然 而 ， 由 于 电子 商务 应 用 程序 可 能 
包含 信用 卡 信息 等 敏感 数据 ， 所 以 云 中 的 安全 性 对 于 成 功 执行 电子 商务 和 其 他 需要 处 理 
人 敏感 数据 的 应 用 程序 至 关 重 要 。 对 于 这 样 的 应 用 ， 混 合 云 似乎 是 一 种 合适 的 方法 ， 其 中 
敏感 数据 存储 在 私有 云 中 ， 而 非 敏 感 数 据 存储 在 公有 云 中 。 

我 们 的 兴趣 在 于 解决 跨 多 个 不 同 处 理 集群 的 数据 分 布 式 查 询 ， 特 别 是 能 够 支持 大 数 
据 分 析 。 目 前 正在 专门 研究 在 封闭 环境 中 的 集群 组 ， 例 如 研究 在 一 个 单一 的 组 织 内 而 不 
是 网 络 上 的 一 般 分 布 式 查询 处 理 。 当 前 的 任何 技术 都 不 支持 包含 非常 大 的 数据 存储 的 跨 
集群 查询 处 理 。 目 前 ， 没 有 通用 的 方法 能 以 可 以 促进 分 布 式 查询 处 理 回 对 集群 中 的 数据 
进行 汇总 或 编目 。 由 于 集群 之 间 网 络 连接 得 相对 较 慢 ， 这 就 要 求 使 用 数据 通信 高 效 的 策 
略 ， 来 高 效 地 访问 和 组 合 各 个 站 点 中 的 数据 。 最 后 ， 虽 然 存 在 用 于 SQL 上 下 文中 的 重 
组 分 布 式 查询 的 有 效 机 制 ， 但 是 分 布 式 集群 不 一 定 是 关系 数据 库 ， 因 此 有 必要 开发 不 同 
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的 策略 来 收集 从 非 关 系数 据 源 检 索 到 的 数据 片段 。 这 里 的 研究 挑战 包括 查询 分 解 和 优化 











以 及 响应 配置 。 


10. 7 总 结 结 和 展望 





本 章 讨 论 了 数据 管理 系统 的 各 个 方面 ， 并 研究 了 云 对 它们 的 影响 。 特 别 是 讨论 云 查 
询 处 理 、 audis M sin 理 等 方面 。 我 们 还 讨论 了 云 中 的 信息 管理 、 知 识 管理 和 
活动 管理 。 第 7 idc 信息 、 知 识 和 活动 管理 的 专用 服务 的 概念 ， 可 以 



































适用 于 云 数 据 信 息 、 知 识 和 活动 管理 。 此 外 ,我 们 还 讨论 了 如 何 通过 语义 云 提供 语义 














Web 服务 。 





如 前 所 述 ， 医 疗 、 金 融和 国防 等 领域 的 许多 应 用 需要 处 理 敏 感 数据 。 因 此 ， 将 安全 
性 纳入 云 计算 将 是 至 关 重 要 的 。 在 本 书 第 五 部 分 和 第 六 部 分 中 ， 我 们 将 讨论 云 的 安全 性 
以 及 我 们 开发 的 云 安全 实验 系统 。 我 们 还 将 讨论 云 数 据 管理 功能 的 安全 性 。 在 第 11 章 



































中 ， 我 们 将 讨论 包括 社交 网 络 云 服 务 ， 以 及 知识 管理 和 领域 应 用 在 内 的 云 应 用 。 


























还 将 讨论 一 些 专用 云 ， 如 多 媒体 云 和 移动 云 。 云 产品 将 在 第 12 章 讨论 。 
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此 外 ， 


第 11 章 专用 云 、 服 务 和 应 用 


11.1 概述 


我 们 前 面 讲 过 云 计算 的 概念 、 功 能 和 产品 ， 还 详细 讨论 了 云 数据 管理 功能 、 云 数据 
管理 产品 以 及 云 框 架 。 男 外 ， 我 们 还 对 云 服 务 提供 商 进 行 了 概述 。 对 云 计 算 概念 的 讨论 
包括 云 部 署 模型 以 及 云 服 务 模型 。 也 就 是 说 ， 我 们 基本 上 讲述 了 常用 的 云 计算 概念 。 
外 ， 还 讲述 了 一 些 常用 功能 ， 如 查询 处 理 网 络 和 应 用 程序 管理 。 

在 本 章 中 ， 我 们 将 探讨 云 的 一 些 专 用 服务 和 应 用 。 例 如 ， 近 年 来 , 手机、 笔记 本 电 
脑 等 移动 设备 的 使 用 ， 以 及 最 近 的 智能 手机 都 有 爆炸 式 发 展 。 这 些 设备 最 初 专注 在 一 些 
简单 的 应 用 程序 ， 如 发 送 和 接收 电子 邮件 ， 以 及 拨打 电话 。 现 今 ， 这 些 设备 专注 于 高 度 
复杂 的 应 用 ， 例 如 照片 共享 、 视 频 消 息 传递 和 执行 过 程 密集 计算 。 这 些 智能 手机 应 用 程 
序 迫 切 需要 访问 云 进行 存储 和 处 理 数据 ， 数 据 可 以 是 流 视 频数 据 。 因 此 ， 一 些 专用 云 正 
在 出 现 ， 这 些 包 括 移动 云 和 多 媒体 云 。 此 外 ， 
云 还 在 许多 领域 被 用 于 各 种 应 用 。 专用 云 、 服 务 

在 本 章 中 ,我 们 将 概述 一 些 专用 云 。 在 和 应 用 程序 
11.2 节 中 ， 我 们 将 讨论 移动 云 和 多 媒体 云 。 在 
11.3 节 中 ， 我 们 将 讨论 云 应 用 ， 如 医疗 保健 、 
国防 和 情报 、 金 融和 社交 网 络 。11. 4 节 总 结 本 
章 内 容 。 应 该 注意 的 是 ， 我 们 在 第 7 章 中 讨论 专用 云 云 应 用 
的 一 些 专用 服务 可 以 用 于 提供 云 应 用 服务 ， 这 
些 包 括 知 识 管理 、 社 交 网 络 和 域名 应 用 服务 。 
图 11. 1 为 本 章 讨 论 的 概念 。 


















































































































































图 11.1 本 章 讨论 的 概念 





11.2 专用 云 
在 本 节 中 ， 我 们 将 讨论 专用 云 ， 如 图 11. 2 所 示 。 
11.2.1 移动 云 














如 本 章 参考 文献 [MCC] 所 述 ,移动 云 计 算是 云 计算 与 移动 设备 相 结 合 使 用 。 移 
动 设备 (如 iPhone 和 Android) 具有 网 页 浏览 功能 。 此 ， 移 动 云 计 算 为 移动 网 络 提供 
A (如 沃达丰 、 Orange 和 Verizon) 创造 了 机 会 。 例 如 ，Verizon 已 经 进行 了 大 量 收购 
(例如 ，Terremark 和 CloudSwitch) 来 增强 其 移动 计算 产品 。 








155 





外 云 和 计算 开发 与 安全 





移动 云 计 算 还 使 智能 手机 的 用 户 将 其 数据 存 
储 在 云端 。 例如， 关于 移动 计算 的 开创 性 发 展 之 
一 是 Android 操作 系统 。 如 本 章 参 考 文献 [ AN- 
DROID] 所 述 ，Android 是 基于 Linux 的 操作 系 
统 ， 适 用 于 智能 手机 和 平板 电脑 等 移动 设备 。 由 
Google 和 开放 手持 设备 联盟 开发 与 领导 。 其 他 值 
得 注意 的 智能 设备 包括 苹果 公司 的 iPhone 和 移动 云 多 媒体 云 
iPad, W B ith W) 24 HR (Amazon Web Services, 
AWS) 使 得 开发 人 员 可 以 用 云 将 移动 应 用 程序 直 uo ae 
接 集 成 到 苹果 公司 的 iPhone, iPad 和 iPod Touch 
以 及 基于 Android 的 智能 手机 中 。 如 本 章 参考 文献 LAWS) 所 述 ， 亚 马 逊 的 目标 是 使 开 
发 人 员 更 轻松 地 构建 利用 其 基于 云 服 务 的 移动 应 用 程序 。 基 本 上 ， 有 了 这 样 的 能 力 ， 开 
发 人 员 可 以 将 其 应 用 程序 与 Amazon 的 基于 云 的 简单 存储 服务 (Simple Storage Service , 
S3) 和 SimpleDB 数据 库 进 行 集 成 ， 并 使 用 简单 通知 服务 ( Simple Notification Service, 
SNS) 和 简单 队列 服务 (Simple Queue Service , SQS) 发 送 消息 。 

其 他 云 操作 系统 包括 阿里 巴巴 (中国 公司 ， 且 已 经 发 布 了 叫 阿里 云 的 智能 手机 操作 系 
统 ) 公司 开发 的 操作 系统 。 阿 里 巴巴 公司 表示 ， 阿 里 云 (Aliyun) 是 智能 手机 的 第 一 个 云 
操作 系统 。 然 而 ,在 IBM 开发 人 员 ( 见 本 章 参 考 文献 [IBM]) 的 文章 中 ， 据 称 Android 
操作 系统 是 基于 Linux 架构 的 云 计算 的 理想 选择 。 他 们 指出 ， 便 携 式 设备 补充 强大 服务 器 
的 云 计 算 ， 需 要 一 个 操作 系统 ， 这 个 操作 系统 应 该 可 以 最 大 限度 地 增加 服务 器 架构 师 和 程 
序 员 在 小 型 客户 端 机 器 上 可 以 做 的 事 。 毫 无 疑问 ，Android 就 是 这 样 的 操作 系统 。 
智能 手机 、 移 动 操作 系统 ， 尤 其 是 移动 云 正 处 于 发 展 阶段 。 这 个 行业 需要 一 段 时 间 
才能 成 熟 ， 而 且 我 们 将 看 到 这 个 市 场 上 赢家 的 出 现 。 尽 管 如 此 ， 随 着 数 十 亿 智 能 手机 用 
户 的 到 来 ， 移 动 云 预计 将 成 为 云 计算 的 主要 发 展 方向 之 一 〈 需 要 注意 的 是 ，2011 年 第 
四 季度 智能 手机 全 球 销售 额 接近 1.6 亿 )。 


11.222 多 媒体 云 


新 兴 的 另 一 种 专用 云 是 多 媒体 云 。 微 软 亚洲 研究 学 院 的 朱文 武 博士 介绍 了 几 种 类 型 
的 多 媒体 云 ， 包括 多 媒体 感知 云 (Media Cloud， 云 媒体 ) 和 云 感 知 多 媒体 (Cloud 
Media， 媒 体 云 ) ( 见 本 章 参 考 文献 [ZHU11] ) 。 他 指出 ， 媒 体 云 解决 了 云 如 何 执行 分 
布 式 多 媒体 处 理 和 存储 的 问题 ， 以 及 为 多 媒体 服务 提供 服务 质量 (Quality of Service， 
QoS) ， 而 云 媒 体 解 决 了 多 媒体 服务 和 应 用 程序 如 何 最 佳 地 利用 云 计算 资源 来 实现 更 好 
的 体验 质量 ( Quality of Experience, QoE) 。 他 认为 应 用 实例 是 电子 医疗 监控 、 全 景 相 机 
和 自由 视角 视频 。 

丹麦 的 研究 人 员 开 发 了 一 个 名 为 5cloud 的 系统 ， 这 是 一 个 移动 多 媒体 云 。 他 们 表 
示 ， 移 动 多 媒体 云 (i5Cloud) 的 目标 是 为 移动 多 媒体 和 大 规模 社交 网 络 分 析 领 域 的 各 
种 服务 和 应 用 提供 laas 和 PaaS。 他 们 的 laas 提供 虚拟 化 ， 并 利用 Sun Solaris Container, 
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专用 云 













































































































































































































































































第 ti 章 SRS. 服务 和 应 用 《| 
PaaS 包含 流 媒体 管理 器 。 在 应 用 服务 层 和 平台 之 间 ， 具 有 多 媒体 业务 层 ， 其 包括 协同 
多 媒体 业务 和 视频 业务 。 
实际 上 ， 多 媒体 云 不 仅 为 海量 的 多 媒体 数据 (包括 视频 、 音 频 、 动 画 、 地 图 、 照 
片 和 文本 ) 提供 存储 功能 ， 还 可 以 向 数据 用 户 提供 多 媒体 数据 的 实时 流 式 传输 。 用 户 
可 以 是 桌面 用 户 或 移动 设备 的 用 户 。 因 此 ， 面 临 的 挑战 是 将 云 计算 服务 与 移动 计算 服务 
和 多 媒体 计算 服务 相 结合 。 就 像 十 年 前 一 样 ， 目 标 是 将 网 络 与 移动 网 络 和 多 媒体 网 络 进 
行 整合 ， 而 今天 的 挑战 是 开发 移动 多 媒体 云 。 









































11.3 AAH 





云 可 以 用 于 任何 应 用 ,包括 国防 和 情报 、 医 疗 保健 和 人 金融、 会 计 等 ， 它 们 也 可 以 用 
于 本 应 用 ,包括 网 络 安全 、 知 识 管理 、 社 交 计 算 以 及 其 他 数据 和 进程 密集 型 应 用 。 我 
们 将 讨论 每 个 应 用 程序 。 图 11. 3 说 明了 这 些 应 用 。 
































防御 和 情报 || 医疗 保健 fi 社交 网 络 知识 管理 























图 11.3 云 应 用 





防御 和 情报 : 收集 大 量 关 于 各 种 作战 行动 ， 以 及 监视 和 侦察 行动 的 数据 。 这 些 数据 
必须 快速 处 理 ， 以 便 及 时 做 出 适当 的 决定 。 云 计算 不 仅 可 以 用 于 存储 大 量 数据 ， 还 可 以 
处 理 数据 (如 挖掘 数据 ) ， 以 便 将 结果 发 送 给 决策 者 。 这 里 主要 的 挑战 是 操作 的 安全 
性 。 大 部 分 数据 可 能 是 高 度 机 密 的 。 而 且 ， 一旦 处 理 不 能 被 算 改 。 因 此 ， 这 些 数据 必须 
由 私有 云 管理 和 处 理 。 
医疗 保健 : 收集 大 量 数据 ， 包 括 患 者 数据 和 管理 数据 ， 用 于 存储 和 处 理 。 可 以 分 析 
患者 数据 以 确定 患者 的 状况 ， 使 医生 看 过 之 后 可 以 确定 给 患者 使 用 适当 的 药物 。 隐 私 对 
患者 数据 至 关 重 要 。 此 外 ， 操 作 的 安全 性 也 至 关 重 要 。 这 里 还 需要 一 个 私有 云 来 存储 和 
处 理 数据 。 
金融 : 银行 可 以 对 他 们 的 数据 财务 处 理 进行 外 包 。 例 如 ， 客 户 账户 管理 和 直接 处 理 
应 用 程序 可 能 会 外 包 给 云 。 然 而 ， 客 户 数 据 必须 加 密 ， 这 意味 着 它 不 能 存储 在 公有 云 
上 。 此 外 ， 重 要 的 银行 业务 不 能 外 包 给 公有 云 ， 因 为 任何 错误 都 可 能 对 银行 造成 灾难 性 
的 影响 。 
社交 网 络 : 在 这 里 ， 像 Facebook 这 样 的 组 织 可 以 在 云端 托管 大 量 的 社交 网 络 。 由 
于 个 人 输入 的 信息 通常 不 被 视 为 私人 信息 ， 所 以 这 种 社交 网 络 可 以 利用 公有 云 。 但 是 ， 
仍 有 隐私 问题 。 这 是 因为 Facebook 有 朋友 的 概念 ， 用 户 可 能 只 想 与 朋友 分 享 信息 。 这 
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意味 着 人 们 可 以 人 侵 公 有 云 ， 并 提取 有 关 Facebook 用 户 的 信息 。 这 是 一 个 目前 存在 争 
议 的 话题 。 

知识 管理 : 公司 可 以 将 其 知识 管理 业务 外 包 给 云 服 务 提 供 商 。 也 就 是 说 ， 为 了 加 强 
组 织 业务 策略 ， 所 有 相关 信息 都 存储 在 云端 。 使 用 比如 数据 挖掘 之 类 的 技术 来 分 析 信 
息 ， 以 便 向 高 级 管理 层 通 报 需 要 进行 的 任何 更 改 。 这 里 需 再 次 说 明 ， 机 密 性 是 一 个 问 
题 。 一 个 组 织 不 会 想 要 将 其 秘密 和 知识 产权 公开 。 因 此 ， 组 织 可 能 会 使 用 私有 云 进行 
工作 。 

总 而 言 之 ， 许 多 使 用 云 的 应 用 程序 需要 安全 ， 需 要 确保 个 人 的 隐私 ， 并 在 许多 情况 
下 确保 数据 的 机 密 性 。 因 此 ， 私 有 云 似乎 最 适合 这 样 的 各 种 应 用 。 然 而 ， 私 有 云 的 托管 
和 实施 是 昂贵 的 。 人 们 希望 尽 可 能 地 利用 公有 云 。 因 此 ， 为 了 使 用 公有 云 ， 安 全 性 至 关 
重要 。 另 一 个 选择 是 使 用 混合 云 。 也 就 是 说 ， 对 非 敏 感应 用 程序 使 用 公有 云 ， 而 对 敏感 
应 用 程序 使 用 私有 云 。 















































































































































11.4 总结 和 展望 











在 本 章 中 ， 我 们 讨论 了 专用 云 和 云 应 用 。 特 别 是 我 们 讨论 了 移动 云 和 专用 云 以 及 防 
御 、 金 融 、 社 交 网 络 和 知识 管理 等 应 用 。 初 步 研究 了 第 7 章 中 讨论 过 的 一 些 专用 的 Web 
服务 ， 并 将 其 应 用 于 提供 云 应 用 服务 。 我 们 的 云 实 验 系 统 以 及 应 用 将 在 本 书 的 第 四 部 
分 、 第 六 部 分 和 第 七 部 分 进行 讨论 ， 包 括 基于 云 的 恶意 软件 检测 、 基 于 云 的 内 部 威胁 检 
测 和 基于 云 的 社交 网 络 。 我 们 还 将 讨论 云 中 的 查询 处 理 的 安全 。 

需要 注意 的 是 ， 第 10 章 和 第 11 章 讨论 了 数据 管理 ， 而 框架 的 应 用 层 已 经 在 第 9 章 
讨论 过 了 。 我 们 简要 讨论 了 虚拟 化 、 存 储 和 网 络 层 框架 的 其 他 层面 。 在 第 12 章 中 ， 我 
们 将 论述 已 经 出 现 的 各 种 云 产 品 。 作 为 本 书 第 三 部 分 主题 的 安全 问题 ， 还 将 出 现在 本 书 
的 第 五 部 分 进行 必要 的 论述 。 
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12.1 概述 


























大 量 云 服务 提供 商 从 2007 年 左右 开始 出 现 ， 其 中 值得 注意 的 有 亚马逊 网 络 服务 、 


Google 应 用 引擎、 微软 的 Azure, Proofpoint, Rightscale, Salesforce. com, Sun 的 开放 云 平 








AAI Workday ( 见 本 章 参考 文献 [AWS], [GOOG], [WIND]). H 


仅 来 自 亚 马 进 、 谷 歌 和 微软 等 服务 提供 商 ， 还 可 能 出 自 比 如 Oracle, 


( 见 本 章 参 考 文献 [IBM], [ORAC1], [ORAC2], [VM]) 等 提供 商 。 同 时 ， 也 出 现 
了 云 框架 结构 ， 包 括 Storm, Hadoop / Map/Reduce 和 Hive ( 见 本 章 参 考 文献 | HIVE], 
型 ， 如 XEN 虚拟 机 管理 程序 也 在 商业 化 ( 见 本 





[HADOOP]、[STORM] ) 。 一 些 研究 原 
章 参 考 文献 [ BARHO3 ] ) 。 
对 产品 进行 分 组 是 一 项 艰 








外 ， 许 多 云 产 品 不 


VMware 和 IBM 






































巨 的 任务 ， 因 为 服务 提供 商 本 身 也 是 市 场 产品 。 例 如 ， 亚 








马 逊 的 弹性 计算 机 云 (Elastic Computer Cloud, EC2) 与 亚马逊 简单 存储 服务 ( Amazon 





Simple Storage Service, AmazonS3) 、 亚 马 运 关系 数据 库 
Service, Amazon RDS) , With SimpleDB AIDE i) fiij 4 

















服务 ( Amazon Relational Database 
和 队列 服务 (Amazon Simple Queue 


Service, Amazon SQS) 协同 工作 ， 提 供 计 算 、 查 询 处 理 和 跨 应 用 程序 存储 的 解决 方案 。 
因此 ， 我 们 将 Amazon, Microsoft 和 Google 等 服务 提供 商 的 产品 ， 与 Oracle Enterprise 
Edition, IBM SmartCloud, VMware 和 XEN 等 产品 ， 以 及 Hadoop, Map/Reduce, Storm 和 


Hive 等 框架 统一 起 来 ， 并 将 其 描述 为 产品 。 应 该 说 明 























的 是 ， 对 于 所 论述 的 内 容 我 们 只 


选择 了 最 熟悉 的 服务 提供 商 、 产 品 和 框架 ,或 是 已 经 在 工作 中 测试 过 的 。 而 描述 所 有 服 
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EE 架 超出 了 本 书 的 范围 。 
本 章 的 结构 如 下 : 在 12.2 节 中 ,我 们 将 描述 各 种 云 服 务 提供 商 : S 
Rk, Oracle, IBM, VMware 和 Citrix ( 即 XEN) 44 

















xb. EAN 











E 产 商 ， 以 及 比如 Hadoop, Map/ 


Reduce, Storm 和 Hive 等 架构 。 在 12.3 节 对 本 章 进 行 总 结 。 图 12. 1 说 明了 本 章 讲述 的 


概念 。 














云 服务 提供 商 ， 
产品 和 架构 





服务 提供 商 
亚马逊 EC2 
微软 Azure 


图 12.1 





产品 Hadoop、Map/Reduce、 
VMware XEN Storm. HiveAR ý 


云 服务 供应 商 ， 产 品 ， 和 架构 
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12.2 云 服 务 提供 商 、 产 品 和 框架 


12.2.1 云 服 务 提供 商 


本 节 讨 论 如 图 12.2 所 示 的 

云 服务 提供 商 。 云 服务 提供 商 
亚马逊 弹性 计算 云 (Ama- 

zon EC2) 在 本 章 人 参考 文献 


[AWS] 中 有 所 描述 ， 它 是 一 种 
jit zure 


小 的 Web 服务 ， 其 Web 服务 接 图 12.2 ea EL 
口中 允许 获取 和 配置 计算 资源 
容量 。 它 可 以 让 用 户 完全 控制 计算 资源 ， 它 也 可 以 让 用 户 只 为 其 所 用 的 资源 容量 支付 费 
用 。 最 后 ， 它 为 开发 人 员 提 供 开发 故障 恢复 应 用 程序 的 工具 。Amazon EC2 提供 虚拟 计 
算 环境 ， 允 许 用 户 访问 Web 服务 接口 ， 以 启动 具有 各 种 操作 系统 的 实例 ， 使 用 自 定义 
应 用 程序 环境 加 载 它 们 ， 并 管理 网 络 的 访问 权限 和 运行 影像 。 

EC2 这 个 云 提供 的 服务 如 下 : 

弹性 : Amazon EC2 可 以 在 数 分 钟 内 提升 或 降低 计算 资源 容量 。 

控制 : 用 户 控 制 他 /她 的 实例 。 

灵活 性 : 用 户 可 以 选择 多 种 实例 类 型 、 操 作 系 统 和 软件 包 。 

与 亚马逊 网 服务 集成 (AWS): Amazon EC2 与 亚马逊 简单 存储 服务 (Amazon S3) , 
亚马逊 关系 数据 库 服务 (Amazon RDS), WH SimpleDB 和 亚马逊 简单 队列 服务 (Am- 
azon SQS) 合作 , 来 提供 计算 、 查 询 处 理 和 跨 应 用 程序 存储 的 解决 方案 。 








































































































可 靠 性 : Amazon EC2 提供 了 一 个 高 度 可 靠 性 的 环境 ， 可 以 对 替换 实例 进行 调试 。 
安全 性 : Amazon EC2 具有 保护 用 户 计 算 机 资源 的 机 制 。 




















Amazon EC2 的 功能 包括 : 
B 亚马逊 弹性 块 存储 : 亚马逊 弹性 块 存 储 (Elastic Block Store, EBS) 为 Amazon 
EC2 实例 提供 持久 存储 。Amazon EBS 提供 的 是 一 种 与 实例 无 关 的 存储 ， 它 独立 于 实例 的 
命 周 期 。 
Bb 多 定位 : Amazon EC2 提供 在 多 个 地 点 放置 实例 的 功能 。Amazon EC2 位 置 由 区 域 
和 可 用 区 组 成 。 
图 弹性 IP 地址 : 弹性 IP 地 址 是 专 为 动态 云 计 算 环 境 设计 的 静态 IP 地 址 。 弹 性 IP 
地 址 与 账户 相关 联 ， 而 不 是 特定 实例 ， 并 且 账 户 拥 有 者 控制 该 地 址 ， 直 到 它 被 明确 
释放 。 
图 亚马逊 虚拟 私有 云 : 亚马逊 VPC 是 现 有 IT 基础 架构 与 AWS 云 之 间 安 全 无 颖 的 
BRE, Amazon VPC 使 企业 能 够 通过 虚拟 专用 网 (Virtual Private Network, VPN) 连接 ， 
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第 人 2 章 云 服务 提供 商 、 产 品 和 框架 上 ( 





将 现 有 基础 设施 连接 到 一 组 独立 的 AWS 计算 资源 ， 并 扩展 其 现 有 的 管理 功能 ， 如 安全 
服务 、 防 火 墙 和 入 侵 检测 系统 ， 来 包含 他 们 的 AWS 资源 。 

图 亚马逊 云 监控 : 亚马逊 云 监 控 是 一 种 Web 服务 ， 用 于 监控 AWS 云 资源 和 应 用 程 
序 。 它 使 得 用 户 可 以 看 到 资源 利用 率 、 运 营 绩 效 和 总 体 需 求 模 式 。 

B 自动 缩放 : 自动 缩放 功能 允许 用 户 根 据 所 定义 的 条 件 自动 缩放 他 /她 的 Amazon 
EC2 计算 资源 容量 。 

图 弹性 负载 平衡 : 弹性 负载 平衡 自动 将 传人 的 应 用 程序 流量 分 配 到 多 个 Amazon 
EC2 实例 。 它 可 以 在 应 用 程序 中 实现 容错 。 

B 高 性 能 计算 (High - Performance Computing，HPC ) 集群 ， 具有 复杂 计算 工作 负 
载 的 客户 机 (如 紧 耦 合并 行进 程 ) ， 可 以 获得 与 定制 基础 架构 相同 的 高 计算 和 网 络 
性 能 。 

Bl VM 导入 /导出 : VM 导入 /导出 使 得 用 户 可 以 轻松 地 将 VM 映像 从 现 有 环境 导入 
到 Amazon EC2 实例 中 ， 并 随时 将 其 导出 。 

Bl AWS 市 场 : AWS 市 场 是 一 个 在 线 商店 ， 可 帮助 客户 查找 、 购 买 和 快速 部 署 在 
AWS 上 运行 的 软件 。 
12.2.1.1 Windows Azure 

如 本 章 参 考 文献 [WIND] 所 述 ，Windows Azure 是 一 个 开放 灵活 的 云 平台 ， 可 使 客 
户 能 够 在 全 球 微软 管理 的 数据 中 心 网 络 中 快速 构建 、 部 署 和 管理 应 用 程序 。 人 们 可 以 使 
用 任何 语言 、 工 具 或 框架 构建 应 用 程序 ， 并 可 以 将 公有 云 应 用 程序 与 现 有 的 IT 环境 相 
集成 。 本 章 参考 文献 【WIND] 中 已 经 说 明 ，Windows Azure 每 月 提供 99. 95% 的 SLA, 
可 以 在 不 关注 基础 设施 的 情况 下 构建 和 运行 高 可 用 性 应 用 程序 。 它 提供 自动 化 操作 系统 
和 服务 补丁 、 内 置 网 络 负载 平衡 和 应 对 硬件 故障 的 复原 功能 。 它 支持 可 以 在 不 停机 的 情 
况 下 升级 应 用 程序 的 部 署 模型 。 

Windows Azure 可 以 使 用 任何 语言 、 框 架 或 工具 来 构建 应 用 程序 。 由 于 使 用 开放 的 
REST 协议 ， 其 功能 和 服务 是 公开 的 。Windows Azure 客户 端 库 支 持 多 种 编程 语言 ， 并 通 
过 开源 许可 证 发 布 。 在 本 章 参 考 文献 [WIND] 中 也 有 说 明 ，Windows Azure 可 以 轻松 地 
将 应 用 程序 扩展 到 任何 大 小 。 它 是 一 个 自动 化 的 自助 服务 平台 ， 可 以 在 几 分 钟 内 为 客户 
提供 资源 。 客 户 也 可 以 增加 或 缩减 资源 使 用 量 ， 并 且 仅 支付 其 所 使 用 的 资源 。 

通过 Windows Azure， 数 据 可 以 利用 关系 SQL 数据 库 、NoSQL 的 表 存 储 和 非 结 构 化 
的 blob 类 型 进行 存储 ， 也 可 以 选择 使 用 Hadoop 和 商业 智能 服务 进行 数据 挖掘 。Win- 
dows Azure 的 分 布 式 缓存 减少 了 客户 的 等 待 时 间 。 此 外 ， 每 个 计算 实例 都 是 将 客户 与 其 
他 客户 隔离 的 虚拟 机 。 一旦 将 计算 资源 分 配给 客户 的 应 用 程序 ，Windows Azure 将 自动 
处 理 网 络 工作 量 平衡 和 故障 切换 ， 以 提供 持续 的 可 用 性 。 

Windows Azure 的 组 件 包 括 SQL Azure 和 Windows Azure 存储 。 如 本 童 参考 文献 
[WIND] 中 所 述 ，SQL Azure 是 一 种 基于 SQL 服务 器 技术 的 高 度 可 用 的 ， 且 可 缩放 的 云 
数据 库 服 务 。 利 用 SQL Azure， 开 发 人 员 无 需 安 装 、 设 置 或 管理 任何 数据 库 。 本 身 内 置 
高 度 可 用 性 和 容错 性 ， 无 需 进 行 物 理 管理 。SQL Azure 是 一 项 由 微软 运营 的 托管 服务 ， 
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(0). 去 计算 开发 与 安全 











每 月 提供 99.9% 的 SLA, SQL Azure 提供 了 一 个 功能 完备 的 关系 数据 库 ， 并 实现 了 多 种 
不 同类 型 的 应 用 程序 ， 一 些 和 常见 方案 包括 业务 应 用 程序 、 混 合 应 用 程序 和 商业 逢 能 。 如 
本 章 参考 文献 [WIND] 中 所 述 ，Windows Azure 存储 提供 安全 、 可 扩展 和 易于 访问 的 存 
储 服 务 ， 且 能 保持 高 可 用 性 和 持久 性 。 存 储 服务 支持 多 种 存储 格式 ， 如 结构 化 和 非 结 构 
化 数据 、NoSQL 数据 库 和 队列 。 存 储 是 一 种 托管 服务 ， 每 月 提供 99.9% 的 SLA, Azure 
的 其 他 组 件 包 括 用 于 网 络 、 商 业 智 能 、 内 容 传递 和 安全 性 。 更 多 细节 请 参见 本 章 参 考 文 
献 [ MATHO9 ] 。 
12.2.1.2 谷歌 应 用 引擎 

如 本 章 参 考 文献 [GOOG] 所 述 ， 谷 歌 应 用 引擎 可 让 客户 在 Google 的 基础 设施 上 使 
用 网 络 应 用 。 应 用 程序 的 应 用 引擎 易于 构建 、 维 护 ， 易 于 随 着 流量 和 数据 存储 需求 的 增 
长 而 扩展 。 使 用 应 用 引擎 时 ， 不 需要 服务 器 去 维持 ， 而 且 用 户 可 以 上 传 他 /她 的 应 用 程 
序 ， 并 在 云 上 运行 。 谷 歌 应 用 引擎 文 持 使 用 多 种 编程 语言 编写 的 应 用 程序 。 可 以 使 用 谷 
歌 应 用 引擎 的 Java 运行 环境 ， 也 可 以 使 用 标准 Java 技术 构建 应 用 程序 ， 包 括 JVM, Java 
servlet 和 Java 编程 语言 。 应 用 引擎 还 具有 两 个 专用 的 Python 运行 环境 。 使 用 应 用 引擎 ， 
客户 只 需要 为 其 所 使 用 的 部 分 付费 。 

如 本 章 参 考 文献 [GOOG] 所 述 ， 应 用 引擎 包含 以 下 功能 : 

E 动态 Web 服务 ， 全 面 支 持 通 用 的 网 络 技术 ; 

B 查询 、 排 序 和 事务 的 持久 性 存储 ; 

B 自动 扩展 和 负载 平衡 ，; 

B 用 于 验证 用 户 和 使 用 Google 账户 发 送 电子 邮件 的 API, 

E 全 功能 的 本 地 开发 环境 ， 它 可 在 您 的 计算 机 上 模拟 谷歌 应 用 引擎 ; 

E 用 于 在 Web 请 求 的 范围 之 外 执行 作业 的 任务 队列 ; 

B 在 指定 时 间 和 定期 间隔 触发 事件 的 计划 任务 。 

应 用 引擎 环境 提供 了 一 系列 数据 存储 选项 ， 包 括 以 下 内 容 : 

Bl 应 用 引擎 Datastore 提供 了 一 个 NoSQL 无 模式 对 象 数据 存储 区 ， 其 中 包含 查询 引 
擎 和 原子 事务 。 

M 谷歌 云 SQL 为 基于 MySQL 的 应 用 引擎 应 用 程序 提供 了 一 个 关系 型 SQL 数据 库 服 
务 。 

图 谷歌 云 存 储 可 以 为 对 象 和 文件 提供 存储 服务 ， 这 些 对 象 和 文件 的 大 小 可 以 达到 
TB 级 别 且 能 够 由 Python 和 Java 应 用 程序 访问 。 

有 关 应 用 引擎 的 更 多 详细 信息 ， 请 参见 本 章 参 考 文献 【MATH09 ] 。 


12.2.2 云 产品 


本 节 讨 论 如 图 12. 3 所 示 的 云 产品 。 
12.2.2.1 Oracle 企业 管理 器 

在 本 章 参 考 文献 [ORACI] 中 指出 ，Oracle 企业 管理 器 是 Oracle 的 综合 企业 IT 管 
理 生 产 线 ， 并 提供 了 一 个 云 生命 周期 管理 解决 方案 。 它 使 客户 能 够 建立 、 管 理 和 支持 企 
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业 云 。 本 章 参考 文献 [ ORACI] 
中 还 表示 ，Oracle 企业 管理 器 
是 Oracle 首屈一指 的 云 管理 解 
决 方案 。 它 提供 自助 服务 配置 ， 
来 权衡 集中 式 、 基 于 策略 的 资 
源 管理 、 集 成 的 扣 款 和 容量 规 
划 以 及 从 应 用 程序 到 磁盘 的 物 
理 和 虚拟 环境 的 可 见 性 。 实 际 
































Oracle 企 业 管理 器 








IBM 智 能 云 Hypervisory= fit 




















上 ， 企 业 管理 器 为 企业 中 的 用 户 提供 数据 库 即 服务 。 


























如 本 章 参考 文献 [ORAC2] 所 述 ， 用 














图 12.3 云 产 品 























于 Oracle 数据 库 的 Oracle 云 管理 包 提 供 了 跨 


越 整个 数据 库 云 生命 周期 的 相关 功能 。 它 允许 云 管理 员 识 别 集合 资源 ， 配 置 基 于 角色 的 





访问 ， 定 义 服务 目录 以 及 相关 的 扣 费 计划 。 它 允许 云 
费 。 它 还 允许 用 户 扩 展 和 缩小 平台 以 适应 工作 负载 的 变化 。 最 后 ， 它 让 双方 了 解 所 提供 
服务 的 成 本 ， 并 建立 了 消耗 资源 的 问 责 








在 本 章 参 考 文献 [ORACI ] 








ii] 。 
中 指出 ， 企 业 管理 器 已 经 将 它 与 一 个 即 买 即 用 的 自 
服务 门户 相关 联 ， 人 允许 开发 人 员 、 测 斌 人员、 数据 库 管 理 员 和 其 他 自 




















助 


助 服务 用 户 登 录 并 


用 户 请 求 数 据 库 服 务 ， 并 按 需 消 





请 求 新 的 单 实例 ( Single Instance, SI) 和 实际 应 用 集群 (Real Application Clusters, 
RAC) 数据 库 ， 以 及 执行 生命 周期 操作 ， 如 启动 /停止 、 状 态 和 健康 监控 。 还 可 以 在 
OracleVM 虚拟 化 服务 器 基础 架构 上 ， 部 署 包含 数据 库 的 虚拟 程序 集 。 该 门户 提供 对 月 








务 目录 的 访问 ， 目 录 中 列 出 了 用 于 标 疹 
户 可 以 查看 他 们 过 去 和 未 完成 的 请 求 、 资 源 配额 、 当 前 利用 率 ， 以 及 他 们 所 扩 
的 扣 费 信息 。 该 门户 还 允许 用 户 每 天 自动 备份 数据 库 或 进行 按 需 备份 。 月 
库 恢复 到 任何 备份 的 状态 。 自 助 服务 门户 是 用 户 进入 云 的 接口 视图 。 















































化 数据 库 配 置 和 各 种 已 发 布 的 版 本 服务 模板 。 用 


E 
区 
































上 有 数据 库 
有 户 可 以 将 数据 





Oracle 还 发 布 了 一 些 云 产品 ， 来 增补 企业 管理 器 ， 其 中 包括 Oracle 文件 系统 。 此 





Jh, Oracle 还 宣布 将 推出 一 套 基 于 云 计算 的 产品 ， 包 括 客户 关系 管理 云 。 


12.2.2.2 IBM 智能 云 





如 本 章 参 考 文献 [IBM] 所 述 ， 








智能 云 





是 IBM 对 云 计 算 的 愿景 。IBM 智能 云 基 础 架 


构 产 品 包括 用 于 构建 和 有 云 和 混合 云 计 算 环 境 的 服务 器 、 存 储 和 虚拟 化 组 件 。 它 提供 基 
础 设施 即 服务 解决 方案 ， 可 以 快速 部 署 云 。 它 还 提供 自动 配置 、 并 行 可 扩展 性 、 集 成 容 








错 能 力 ， 以 及 更 高 级 云 功 能 的 基础 。 


IBM 智能 云 配 置 如 下 : 











图 一 种 低 成 本 ， 易 于 使 用 的 私有 云 解决 方案 ， 可 在 数 小 时 内 部 署 。 
BI 可 靠 、 不 间断 的 操作 ， 能 够 自动 容忍 和 恢复 软件 和 硬件 故障 。 

B 快速 的 可 扩展 性 ， 可 以 快速 部 署 数 百 台 虚 拟 机 来 满足 业务 增长 。 
图 低 蚀 摸 式 基础 架构 可 帮助 减少 错误 ， 增 强 安全 性 和 合 规 性 ， 并 提高 管理 员 的 工 





作 效 率 。 





IBM 智能 云 监控 私有 云 基础 架构 的 运行 状况 和 仅 
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E 能 ， 包 括 物理 和 虚拟 化 组 件 的 环 





外 云 计 算 开 发 与 安全 

















境 。 根 据 需求 ， 该 解决 方案 还 可 以 提供 评估 当前 容量 和 模型 扩展 所 需 的 工具 。 与 Smart- 
Cloud 相关 的 是 一 套用 于 集成 多 云 、 数 据 管理 和 安全 性 的 工具 。 例 如 ，IBM 的 DB2. 9 是 
用 于 管理 关系 数据 和 XML 数据 的 数据 库 服 务 器 ， 适 用 于 云 部 署 。 
12.2.2.3 虚拟 机 管理 程序 产品 

自 20 世纪 90 年 代 后 期 以 来 ， 已 经 有 几 款 虚拟 机 管理 程序 的 产品 面世 。 早 期 的 虚拟 
机 管理 程序 的 产品 之 一 就 是 VMware。 它 一 开始 作为 斯 坦 福 大 学 研究 项 目 ， 然 后 被 商业 
化 。 实 际 上 ，VMware 开发 了 云端 的 一 个 早期 虚拟 化 软件 。 如 本 章 参 考 文献 [VM] 所 
述 ，VMware 软件 为 访客 操作 系统 提供 了 一 套 完全 虚拟 化 的 硬件 。VMware 软件 可 以 虚拟 
化 视频 适配器 、 网 络 适配器 和 硬盘 适配器 等 硬件 。 主 机 为 访客 USB 、 串 行 和 并 行 设 备 提 
供 传递 驱动 程序 。 这 样 一 来 ，VMware 中 的 虚拟 机 就 可 在 计算 机 之 间 进 行 移植 ， 因 为 每 
个 主机 看 起 来 均 与 访客 几乎 相同 。VMware 提供 桌面 虚拟 化 、 服 务 器 虚拟 化 、 云 虚拟 化 
和 应 用 程序 。 其 桌面 产品 套件 包括 VMwareWorkstation 和 VMwareFusion 。 其 服务 器 产品 
包括 VMwareESX 和 VMotion。 其 云 产 品 包 括 VMwarevCloud。 其 应 用 产品 包括 VMware 
vFabric tc 服务 器 。 

男 一 个 著名 的 管理 程序 产品 是 XEN。 像 VMware 一 样 ， 它 是 作为 英国 剑桥 大 学 的 研 
究 项 目 而 开始 的 ， 并 通过 Citrix 进行 销售 。XEN Hypervisor 运行 在 硬件 之 上 ， 并 捕获 虚 
拟 机 的 所 有 请 求 以 访问 硬件 。 域 0 (Domo) 是 用 于 管理 其 他 虚拟 机 的 Linux 修改 版 本 。 
域 U (DomU) 是 XEN 中 的 用 户 域 。DomU 是 所 有 不 受信 任 的 客户 操作 系统 所 在 的 地 方 。 
DomU 分 为 两 部 分 : Para 虚拟 化 域 (Para — Virtualized Domains, PV) 和 硬件 辅助 虚拟 机 
(Hardware Assisted Virtualized Machine, HVM) 域 。Para 虚拟 化 域 是 一 个 已 修改 的 操作 
系统 ， 要 意识 到 它 是 一 个 虚拟 机 ， 且 可 以 实现 近乎 原生 的 性 能 。HVM 域 是 一 个 虚拟 机 
且 运 行 尚未 修改 为 工作 在 Dom0 的 操作 系统 。PV 被 授予 对 存储 器 的 只 读 访 问 ， 并 且 任 
何 更 新 操作 由 管理 程序 控制 。 给 出 一 个 影子 页 表 ， 因 为 它们 不 知道 如 何 使 用 不 连续 的 物 
理 地 址 空间 。LO (输入 /输出 ) 管理 由 Domo 控制 。PV 与 Dom0 共享 内 存 ， 通 过 它们 可 
以 传递 消息 。 

VMware 和 XEN 都 有 几 篇 白皮书 和 文章 。 详 细 信息 请 参见 本 章 参考 文献 [ MATH09 | 。 
我 们 将 在 第 17 章 讨 论 这 些 管理 
程序 的 安全 细节 。 云 框架 


12.2.3 云 框架 


本 节 讨 论 云 服务 提供 商 ， Hadoop、 Storm Hive 
e ur S Map/Reduce 
如 图 12.4 所 示 。 我 们 在 实验 工 


作 中 利用 了 这 些 框架 ， 实 验 系 图 12.4” 云 框架 
统 将 在 第 四 部 分 讨论 。 
12.2.3.1 Hadoop, Map/Reduce 框架 
如 本 章 参 考 文献 [AWS] BIB, Apache Hadoop 是 一 个 软件 框架 ， 可 以 在 免费 许可 
证 下 支持 分 布 式 应 用 程序 。 它 还 可 以 使 应 用 程序 在 许多 机 器 上 工作 ， 并 生成 大 量 的 数 
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JE. Hadoop W F Google 的 Map/Reduce 和 GoogleFileSystem (GFS) 系列 文件 内 容 ， 它 是 
用 Java 编写 的 。 

Hadoop 由 Hadoop Common 组 成 ， 其 可 以 访问 Hadoop 支持 的 文件 系统 。 为 了 有 效 地 
调度 工作 ， 每 个 Hadoop 兼容 文件 系统 都 应 提供 位 置 侦 测 : 工作 节点 所 在 机 架 的 名 称 。 
Hadoop 应 用 程序 还 可 以 使 用 此 信息 ， 在 数据 所 在 的 节点 上 运行 工作 ， 并 且 在 同一 个 机 
架 / 交 换 机 上 运行 该 功能 ， 从 而 减少 主干 网 流量 。HDFS 在 复制 数据 时 使 用 此 功能 ， 尝 
试 将 数据 的 不 同 副 本 保留 在 不 同 的 机 架 上 。 其 目标 是 减少 机 架 停 电 或 开关 故障 的 影响 ， 
以 便 即使 发 生 这 些 事 件 ， 数 据 仍然 可 以 读 取 。 

一 个 小 的 Hadoop 集群 将 包含 一 个 主 节 点 和 多 个 工作 节点 。 主 节点 由 JobTracker ( 作 
MER ERR). TaskTracker (任务 跟踪 器 ) NameNode (名 称 节 点 ) 和 DataNode (数据 节 
点 ) 组 成 。 从 属 节点 或 工作 节点 既 充 当 数 据闻 点 ， 也 充当 任务 跟踪 需 。 虽 然 它们 可 能 
是 仅 有 数据 的 工作 节点 和 仅 用 于 计算 的 工作 节点 ， 但 这 些 通常 仅 用 于 非 标准 应 用 。 在 较 

































































大 的 集群 中 ， 专 用 名 称 节点 服务 器 进行 管理 HDFS， 以 托管 文件 系统 索引 ， 并且 二 次 名 
称 节 点 可 以 生成 名 称 节 点 内 存 结构 快照 。 这 样 就 可 以 防止 文件 系统 损坏 并 减少 数据 
ERo 











HDFS 是 用 Java 编写 的 用 于 Hadoop 框架 的 分 布 式 、 可 扩展 和 可 移植 的 文件 系统 。 
Hadoop 实例 中 的 每 个 节点 通常 都 具有 单个 数据 节点 ， 及 一 组 数据 节点 形成 的 HDFS 集 
群 。 位 于 文件 系统 之 上 的 Map/Reduce 引擎 ， 由 一 个 作业 跟踪 器 组 成 ， 客 户 端 应 用 程序 
向 其 提交 Map/Reduce 作业 。 作 业 跟 踪 需 将 工作 推送 到 可 用 任务 跟踪 器 节点 的 集群 中 ， 
努力 使 作业 尽 可 能 靠近 数据 。 使 用 机 架 感知 文件 系统 ， 作 业 跟 踪 器 可 以 知道 哪个 节点 包 
含 数据 ， 哪 些 其 他 机 器 在 附近 。 如 果 作 业 无 法 托管 在 数据 所 在 的 实际 节点 上 ， 则 优先 考 
虑 同一 机 架 中 的 节点 。 这 减少 了 主干 网 上 的 网 络 流量 。 如 果 任 务 跟踪 器 失败 或 超时 ， 该 
部 分 作业 将 重新 安排 。 

我 们 在 所 有 的 云 中 都 使 用 了 Hadoop/Map/Reduce 框架 ， 这 些 在 后 面 的 章节 中 进行 讨 
论 。 也 就 是 说 ， 我 们 的 许多 原型 ， 包 括 云 数 据 管理 器 和 社交 网 络 都 托管 在 Hadoop/Map/ 
Reduce 框架 上 。 
12.2.3.2 Storm 

Storm 是 一 种 开放 源码 的 分 布 式 实时 计算 系统 。Storm 类 似 于 Hadoop， 它 为 用 户 提 
供 了 实时 执行 计算 的 通用 框架 ， 就 像 Hadoop 为 用 户 提 供 执 行 批量 处 理 操作 的 通用 框架 
—FE, Storm 提供 以 下 关键 属性 : 中 支持 广泛 的 用 例 ， 如 流 处 理 和 连续 计算 ; Storm 是 
可 扩展 的 ， 具 有 每 秒 能 处 理 大 量 信息 的 能 力 ; @Storm 保证 每 个 信息 都 将 被 处 理 ， 从 而 
确保 没有 数据 遗 落 ; OStorm 集群 易于 管理 ， 非 常 强 大 ; OStorm 通过 自动 重新 分 配 在 执 
行 过 程 中 失败 的 任务 来 确保 容错 性 ; @Storm 的 组 件 和 编程 语言 无 关 ， 因 此 几乎 可 以 被 
任何 人 使 用 。 

Storm 集群 由 两 种 节点 组 成 : 主 节点 和 工作 节点 。 主 节点 运行 一 个 称 为 “Nimbus” 
的 守护 进程 ， 负 责 在 集群 周围 分 发 代码 ， 将 任务 分 配给 机 器 并 监控 故障 。 每 个 工作 节点 
运行 一 个 名 为 “Supervisor” 的 守护 进程 ， 它 监听 Nimbus 为 其 分 配 的 工作 ， 并 启动 / 停 
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止 工作 进程 以 完成 此 工作 。Nimbus 和 Supervisor 之 间 的 协调 是 通过 Zookeeper 集群 完 
成 的 。 
Storm 使 用 “拓扑 ”的 概念 进行 实时 计算 。Storm 拓扑 类 似 于 Map/Reduce 作业 ,但 
是 ,一 个 关键 的 区 别 是 ，Map/Reduce 作业 最 终 会 完成 ， 而 拓扑 中 会 永久 运行 或 直到 被 
终止 。 拓 扑 是 由 spout 和 bolt 构成 的 有 向 图 ，spout 与 bolt 通过 流 分 组 连接 在 一 起 。 值 得 
注意 的 是 ， 流 是 Storm 中 的 核心 抽象 ， 并 且 表 示 使 用 分 布 式 集群 以 并 行 方式 创建 和 处 理 
的 无 限制 的 元 组 序列 。spout 作为 拓扑 的 流 源 ， 通 常 从 外 部 源 读 取 元 组 ， 并 将 其 发 布 到 
拓扑 中 。bolt 用 于 在 拓扑 中 执行 所 需 的 处 理 ， 例 如 启动 与 数据 库 的 连接 ， 执 行 比 如 过 
滤 、 聚 合 和 连接 等 操作 。 流 分 组 确定 输入 到 一 个 特定 bolt 的 流 如 何在 该 bolt 的 任务 之 间 
进行 分 离 。 最 后 ，Storm 保证 每 个 spout 元 组 都 将 被 拓扑 完全 处 理 ， 并 且 还 提供 了 几 种 配 
置 来 定制 Nimbus, Supervisor 和 运行 拓扑 的 行为 。 

12.2.3.3 Hive 

Hive 是 Apache 的 开源 系统 。 如 本 章 参考 文献 [HIVE] BIB, Hive 是 一 个 用 于 Ha- 
doop 的 数据 仓库 系统 ， 可 帮助 您 轻松 进行 数据 汇总 、 点 对 点 查询 以 及 对 存储 在 Hadoop 
兼容 文件 系统 中 的 大 型 数据 集 进 行 分 析 。Hive 提供 了 一 种 机 制 来 将 结构 投影 到 这 些 数 
据 上 ， 并 使 用 类 似 SQL 的 语言 HiveQL 来 查询 数据 。 同 时 ， 这 种 语言 还 允许 传统 的 Map/ 
Reduce 程序 员 在 不 方便 或 低 效 时 插入 自己 的 定制 映射 器 和 规约 器 ， 以 在 HiveQL 中 表达 
这 种 逻辑 。 也 就 是 说 ，Hive 支持 以 类 似 SQL 的 语言 进行 数据 查询 、 转 换 为 Map/ Reduce 
任务 ， 然 后 由 Hadoop 框架 执行 。 使 用 HDFS 作为 数据 存储 ，Hive 继承 了 Hadoop 的 所 有 
容错 能 力 和 可 伸缩 性 ， 以 及 处 理 巨大 数据 集 的 能 

如 本 章 参 考 文 献 [HIVE] 所 述 ，Hive 查询 语言 和 SQL 查询 之 间 的 主要 区 别 是 Hive 
查询 在 Hadoop 集群 (而 不 是 为 了 大 型 数据 集 而 使 用 昂贵 的 硬件 构建 平台 ) 上 执行 。 这 
样 就 允许 Hive 可 以 扩展 ， 以 处 理 大 量 数据 集 。Hive 查询 的 内 部 执行 是 通过 一 系列 自动 
生成 的 Map/Reduce 作业 来 完成 的 。 

Hive 是 执行 Hive 查询 的 基础 。 它 包括 三 个 主要 部 分 : Hadoop 集群 、 元 数据 存储 、 
仓库 主管 。Hadoop 集群 是 存储 大 数据 集 和 执行 处 理 廉价 商品 计算 机 的 集群 。 元 数据 存 
储 是 保存 大 型 数据 集结 构 描 述 的 位 置 。 仓 库 目 录 是 Hive 用 于 存储 /缓存 工作 文件 的 存储 
位 置 。 

一 种 引 人 关 注 Hive 的 实现 方法 ， 来 自 于 Facebook 的 开发 人 员 。 在 一 篇 文章 (ILA 
章 参 考 文献 [THUS09] ) 中 ，Facebook 开发 人 员 已 经 将 Hive 描述 为 构建 在 Hadoop 之 上 
的 开源 数据 仓库 解决 方案 。 他 们 表示 ， 在 Facebook 中 ，Hive 仓库 包含 数 以 万 计 的 桌面 
和 超过 700 TB 的 数据 ， 并 被 广泛 用 于 200 个 用 户 的 每 月 报告 和 点 对 点 分 析 。 我 们 在 实 
现 的 云 查询 处 理 中 也 广泛 使 用 了 Hive， 将 在 第 22 章 讨 论 具体 的 实现 过 程 。 





















































































































































































































































12.3 ”总结 和 展望 














在 本 章 中 ， 我 们 讨论 了 各 种 云 服务 提供 商 、 产 品 和 框架 。 这 些 包括 亚马逊 、 微 软 和 
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谷歌 等 服务 提供 商 ，Oracle、IBM、VMware 和 XEN 等 产品 以 及 Hadoop, Map/Reduce, 
Storm 和 Hive 等 框架 。 需 要 注意 的 是 ,我 们 选择 的 这 些 都 是 我 们 熟悉 的 服务 提供 商 、 产 
品 和 框架 ， 并 已 将 其 用 于 我 们 的 工作 中 。 还 有 更 多 优秀 的 云 服 务 提供 商 、 产 品 和 框架 ， 
但 是 如 果 对 它们 全 部 讨论 超出 了 本 书 的 范围 。 本 章 参 考 文献 [ MATH09] 也 给 出 了 一 个 
概述 。 

第 三 部 分 主要 介绍 了 有 关 云 计算 中 的 一 些 关 键 概念 ， 包 括 部 署 和 服务 模型 、 功 能 和 
应 用 。 我 们 将 在 第 四 部 分 讨论 如 何 使 用 各 种 产品 、 框 架 和 服务 的 一 些 细 节 。 云 安全 问题 
以 及 我 们 的 云 计 算 安 全 实验 系统 将 成 为 第 五 到 九 部 分 的 主题 。 特 别 地 ， 我 们 将 讨论 各 种 
云 服务 、 产 品 和 框架 的 安全 性 。 
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第 三 部 分 总 结 


在 第 二 部 分 我 们 讨论 了 云 计 算 核心 的 Web 服务， 第 三 部 分 我 们 概述 了 云 计算 概念 、 
技术 和 产品 。 我 们 还 展示 了 如 何 利用 第 二 部 分 关于 Web 服务 、 语 义 Web 服务 和 专业 
Web 服务 的 概念 为 消费 者 提供 云 服 务 。 

第 8 章 介 绍 了 云 的 概念 ， 并 讨论 了 虚拟 化 的 各 个 方面 。 特 别 是 讨论 了 硬件 虚拟 化 、 
操作 系统 虚拟 化 、 网 络 虚 拟 化 和 数据 虚拟 化 等 方面 。 还 论述 了 云 的 各 种 服务 模式 和 部 署 
模式 。 

第 9 章 讨 论 了 云 计 算 功 能 的 各 个 方面 。 首 先 ， 我 们 提出 了 一 个 云 计 算 框 架 。 该 框架 
由 网 络 层 、 虚 拟 化 层 、 存 储 层 、 数 据 管 理 层 和 应 用 层 组 成 。 其 次 ， 阐 述 了 每 层 的 功能 。 
最 后 ， 我 们 讨论 了 云 的 策略 管理 、 备 份 和 恢复 问题 。 

第 10 章 论 述 数据 管理 系统 的 各 个 方面 ， 并 人 研究 了 云 的 影响 。 特 别 是 讨论 了 云 查询 
云 事务 管理 和 云 存储 管理 等 方面 。 还 讨论 了 云 中 的 信息 管理 、 知 识 管理 和 活动 




















处 理 、 
管理 。 
第 11 章 讨论 了 两 个 主题 : 专用 云 和 云 应 用 ， 特 别 是 我 们 讨论 了 移动 云 和 专用 云 以 
及 云 应 用 ， 如 国防 、 金 融 、 社 交 网 络 和 知识 管理 。 
第 12 章 讨论 了 各 种 云 服务 提供 商 、 产 品 和 框架 。 这 些 包括 亚马逊 、 微 软 和 谷歌 等 
服务 提供 商 ，Oracle、IBM、VMware 和 XEN 等 产品 ， 以 及 Hadoop, Map/Reduce, Storm 
和 Hive 等 框架 。 












































第 四 部 分 云 计 算 实验 系统 


第 四 部 分 简介 

既然 我 们 已 经 介绍 了 关于 云 计算 的 基本 情况 ， 接 下 来 我 们 将 介绍 一 些 已 经 开发 的 云 
计算 实验 系统 。 这 将 使 读者 更 好 地 了 人 解 如 何 利 用 分 布 式 计算 、Map/Reduce 和 Storm 等 这 
些 在 第 三 部 分 已 讨论 过 的 技术 。 

第 四 部 分 由 三 个 章节 组 成 : 第 13、14 和 15 章 。 第 13 章 讨论 关于 语义 Web 云 查询 
处 理 原型 系统 。 第 14 章 讨 论 基于 云 服务 的 社交 网 络 托管 工作 。 第 15 章 讨 论 我 们 已 经 开 
发 的 多 个 原型 系统 ， 包 括 面向 社会 网 络 的 云 计算 、 面 向 语义 Web 数据 存储 的 云 计 算 、 
基于 本 体 的 查询 处 理 的 云 计算 。 


















































169 


第 13 章 ” 云 查询 处 理 实验 系统 


13.1 概述 





如 前 所 述 ， 云 计算 是 一 个 在 T 以 及 数据 人 处理 领域 中 的 新 兴 计 算 模 式 。 企 业 利 用 云 
计算 服务 进行 数据 源 的 维护 ， 从 而 产生 显著 的 经 济 效 益 。 他 们 也 能 利用 云 服 务实 现 数 据 
的 存储 与 远程 数据 的 访问 。 随 着 云 计算 的 普及 ， 云 计算 服务 提供 商 将 面临 越 来 越 大 的 挑 
战 。 他 们 在 提供 高 效 的 信息 检索 功能 的 同时 ， 还 必须 维护 大 量 的 异 构 数 据 。 因 此 ， 云 计 
算 解 决 方案 的 重心 是 可 扩展 性 和 查询 效率 。 语义 Web 技术 正在 发 展 ， 力 图 用 标准 化 的 
方式 来 呈现 数据 ， 这 样 的 数据 既 可 以 被 人 理解 ， 同 时 也 可 以 被 机 器 检索 。 从 以 往 经 验 上 
看 ， 网 页 以 HTML (Hypertext Markup Language， 超 文本 标记 语言 ) 文件 展现 出 来 ， 而 这 
些 文件 不 适合 推理 。 机 器 将 这 些 HTML 文件 视 为 一 系列 关键 字 。 研 究 人 员 正 在 开发 标准 
化 的 语义 Web 技术 ， 以 解决 这 些 不 足 之 处 。 最 突出 的 标准 是 RDF ( 见 本 章 参考 文献 
[W3b]) 协议 、SPARQL (SPARQL 协议 和 RDF 查询 语言 ) 协议 和 RDF 查询 语言 (UL 
本 章 参 考 文献 [W3e]) (SPARQL) 协议 。RDF 是 存储 和 表示 数据 的 标准 ，SPARQL 是 
从 RDF 数据 库 检 索 数 据 的 查询 语句 。 云 计算 系统 可 以 利用 这 些 语义 Web 技术 的 力量 ， 
为 用 户 提 供 面向 数据 密集 型 应 用 程序 的 有 效 存储 数据 和 检索 数据 的 功能 。 

语义 Web 技术 对 云 数 据 的 维护 尤为 重要 。 这 些 技术 能 够 以 标准 化 的 方式 来 指定 和 
查询 异 构 数据 。 而 且 ， 通 过 在 Web 本 体 语言 (Web Ontology Language, OWL), ， 可 以 指 
定 本 体 、 不 同 的 模式 、 类 、 数 据 类 型 和 关系 ， 而 不 会 影响 标准 RDE/SPARQL 接口 。 反 
过 来 ， 云 计算 的 解决 方法 可 以 很 好 地 应 用 于 语义 Web 社区 。 语义 Web 数据 集 正 呈 指 数 
级 增长 。 因 此 ， 与 其 他 领域 相 比 ， 在 Web 领域 中 ， 可 伸缩 性 是 最 重要 的 。 同 时 ， 快 速 
的 响应 在 网 络 社区 中 也 至 关 重 要 ， 这 是 因为 有 大 量 的 客户 〈 即 用 户 ) 访问 大 量 的 Web 
数据 。 我 们 相信 ， 云 计算 模式 提供 了 一 个 可 以 达到 这 两 个 目标 的 解决 方案 。 

现 有 的 商业 工具 和 技术 在 云 计算 环境 中 并 没有 得 到 很 好 的 扩展 。 最 近 ， 研 究 人 员 开 
始 关注 这 些 问 题 。 他 们 建议 从 零 开始 建立 系统 。 在 本 章 参 考 文献 【WANG10 ] 中 ， 研 
究 人 员 提 出 了 一 种 新 的 分 布 式 数据 库 ( 见 本 章 参考 文献 [COMP] ) 索引 方案 ,可 以 用 
来 作为 一 个 云 系 统 。 当 涉及 如 RDF 的 语义 Web 数据 时 ， 我 们 就 会 面临 着 类 似 的 挑战 。 
尽管 需要 存储 和 检索 大 量 的 数据 ， 但 是 随 着 存储 成 本 变 得 越 来 越 低 ， 为 处 理 数 十 亿 个 
RDF 三 元 组 ， 我 们 需要 开发 TB 级 甚至 PB 级 磁盘 空间 的 系统 将 不 再 遥远 。 研 究 人 员 正 
致力 于 此 需求 的 开发 〈 见 本 章 参 考 文献 [ NEWM08 ] 、[ ROHL07] ) ， 同 时 也 组 织 了 各 类 
比赛 以 鼓励 研究 人 员 建 立 有 效 的 知识 库 ( 见 本 章 参 考 文献 [CHAL]) 。 目 前 ， 语 义 Web 
技术 只 有 几 个 框架 [例如 ，RDF -3X ( 见 本 章 参考 文献 [NEUM08 ] ) Jena ( 见 本 章 参 
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考 文 献 [CARR04] ) Sesame ( 见 本 章 参考 文献 [OPEN] ) BigOWLIM ( 见 本 章 参 考 文 
HR [KIRY05 ] ) ， 而 这 些 框架 对 大 型 RDF 图 表 有 所 局 限 。 因 此 ， 存 储 大 量 的 RDF 三 元 
组 并 且 高 效 地 查询 它们 是 一 个 具有 挑战 性 的 重要 问题 。 

在 这 一 章 中 ， 我 们 讨论 具有 云 计算 功能 和 管理 大 量 RDF 三 元 组 功能 的 查询 处 理 系 
统 。 本 章 结构 如 下 : 在 13.2 节 中 ， 讨 论 我 们 的 方法 。 在 13.3 节 中 ， 讨 论 相 关 的 工作 。 
1E 13.4 节 中 ， 讨 论 系统 架构 。 在 13.5 节 中 ， 我 们 讨论 如 何 响应 SPARQL 查询 。 在 13.6 
节 中 ， 给 出 实验 结果 。 最 后 ， 在 13.7 节 中 ， 我们 得 出 一 些 结论 ， 并 讨论 一 些 我 们 已 经 
确定 且 在 未 来 需要 进行 改进 的 领域 。 本 章 内 容 如 图 13. 1 所 示 。 更 详细 的 讨论 的 概念 、 
体系 结构 和 实验 在 本 章 参 考 文献 [HUSAlla] 和 [HUSA11b] 中 提供 。 





























云 查询 
处 理 实验 系统 








实验 和 结果 





我 们 的 方法 : 
Hadoop/Map/Reduce 系统 与 SPARQL 
RDF 操作 架构 查询 优化 器 
SPARQL 查询 


图 13.1 云 查 询 处 理 [ Husain, M. F. , J. P. MeGlothlin, M. M. Masud, L. R. Khan 和 B. M. 
Thuraisingham, Heuristics — based query processing for large RDF graphs using cloud computing, 
IEEE Transactions on Knowledge and Data Engineering, 23 (9): 1312 - 1327. © (2011) IEEE. ] 




















13.2 我 们 的 方法 


我 们 可 以 构建 一 个 分 布 式 系统 ， 以 克服 当前 语义 Web 框架 的 可 扩展 性 和 性 能 问题 。 
数据 库 的 分 布 式 存储 ， 就 是 提供 这 种 可 扩展 性 的 解决 方案 。 但 是 ， 迄 今 为 止 并 没有 发 现 
用 于 存储 和 管理 RDF 数据 的 分 布 式 资料 库 。 研 究 人 员 最 近 才 开始 探索 构建 这 样 的 分 布 
式 系统 所 必须 解决 的 问题 和 技术 的 解决 方案 。 目 前 ， 有 一 个 充满 前 景 的 调查 研究 路 线 ， 
其 所 涉及 利用 现成 的 分 布 式 数据 库 系统 或 关系 数据 库 。 这 样 的 数据 库 系统 可 以 使 用 关系 
模式 来 存储 RDF 数据 。 首 先 要 将 它们 转换 为 SQL 可 以 应 答 的 SPARQL 查询 ( 见 本 章 参 
考 文献 [CHEB07] 、[ CHON05 ] 、[ CYGA05 ] ) 。 为 了 达到 这 个 目的 ， 需要 人 研究 最 佳 关 
系 模式 〈 见 本 章 参 考 文献 [ABAD07 ] ) 。 这 种 系统 的 主要 缺点 是 ， 它 们 是 针对 关系 数据 
进行 优化 的 。 对 RDF 数据 的 处 理 不 是 很 好 ， 特 别 是 因为 RDF 数据 是 三 元 组 的 集合 (I 
本 章 参考 文献 [W3a] ) ( 称 为 主题 、 谓 词 和 对 象 的 三 个 组 件 的 有 序 元 组 ) ， 它 们 形成 大 
的 有 向 图 。 在 SPARL 查询 中 ,任何 数量 的 三 元 组 模式 (TP) ( 见 本 章 参 考 文献 
[W3e]) 都 可 以 加 入 单个 变量 〈 见 本 章 参考 文献 [W3d])， 这 使 得 关系 数据 库 查 询 计 
划 变 得 复杂 。 人 性 能 和 可 扩展 性 仍然 是 一 个 具有 挑战 性 的 问题 ， 因 为 这 些 系统 是 针对 关系 
数据 模式 和 事务 性 数据 库 的 使 用 而 优化 的 。 
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另 一 种 方法 是 从 头 开 始 构建 一 个 分 布 式 RDF 系统 。 在 这 里 ， 会 设计 和 优化 一 个 特 
定 的 应 用 于 RDF 数据 的 系统 。 然 而 ， 这 种 做 法 是 高 度 定制 的 ， 将 很 难 适 应 新 的 标准 。 
因为 我 们 并 不 是 从 头 开始 ， 而 是 用 一 个 通用 的 分 布 式 存储 系统 构建 了 一 个 解决 方案 ， 它 
利用 了 云 计 算 平 台 。 然 后 ， 我 们 专门 为 满足 语义 Web 数据 的 需要 量 身 定 做 了 系统 和 架 
构 。 最 后 ， 我 们 构建 了 一 个 使 用 这 种 存储 设备 的 语义 Web 存储 库 。 

Hadoop ( 见 本 章 参 考 文献 [HADOa]) 是 一 个 分 布 式 文件 系统 ， 可 以 通过 复制 保存 
文件 。 它 是 构建 存储 系统 的 理想 选择 。Hadoop 具有 高 容错 性 和 极 高 的 可 靠 性 。 此 外 ， 
它 还 包含 了 Map/Reduce ( 见 本 章 参 考 文献 [DEANO4]) 编程 模型 ， 这 是 一 种 适合 于 并 
行 处 理 大 量 数据 的 函数 编程 模型 。 通 过 将 数据 分 割 成 多 个 独立 的 区 块 ， Map/ Reduce 进 
程 针 对 这 些 区 块 运行 ， 使 并 行 化 变 得 更 加 简单 。 此 外 ，Map/Reduce 编程 模型 有 助 于 简 
化 加 入 多 个 三 元 组 模式 的 任务 。 

在 本 章 中 ， 我 们 将 描述 一 种 在 Hadoop 中 存储 RDF 数据 的 模式 ， 并 详细 介绍 一 种 针 
对 处 理 这 些 数 据 查 询 的 解决 方案 。 在 预 处 理 阶段 ， 我 们 处 理 RDF 数据 并 在 分 布 式 文件 
系统 中 填充 文件 。 该 过 程 包括 分 区 和 组 织 数据 文件 并 执行 字典 编码 。 然 后 ， 将 详细 介绍 
一 个 用 于 信息 检索 的 查询 引擎 。 我 们 将 精确 地 指定 如 何 使 用 Map/Reduce 编程 来 满足 
SPARQL 查询 。 具 体 来 说 ， 我 们 必须 确定 将 要 执行 的 Hadoop “A” KERE, R 
们 将 介绍 一 种 贪 焚 算 法 ， 其 可 以 生成 一 个 查询 计划 ， 且 用 到 最 少量 的 Hadoop 作业 。 这 
虽然 是 一 个 基于 启发 式 的 近似 算法 ， 但 是 我 们 将 证 明 最 坏 的 情况 具有 合理 的 上 限 。 最 
后 ， 我 们 将 利用 两 个 标准 的 基准 数据 集 来 运行 实验 。 我 们 提出 的 数据 集 范 围 ， 从 1 亿 到 
66 亿 以 上 的 三 元 组 ， 展 示 了 我 们 的 解决 方案 非常 具有 可 扩展 性 。 也 会 证 明 ， 我 们 的 解 
决 方案 胜 过 处 于 领导 地 位 的 且 具 有 最 先进 的 语义 Web 存储 库 ， 在 庞大 的 数据 集 上 使 用 
标准 的 基准 查询 。 我 们 所 做 出 的 贡献 列 在 下 面 ， 如 图 13.2 所 示 。 更 多 细节 在 本 章 参 考 


文献 [HUSAlla] 中 给 出 。 

我 们 

TET 
Hadoop 中 RDF SPARQL > ae Jena 查 询 的 
数据 的 存储 模式 查询 优化 器 可 扩展 的 云 框架 性 能 结果 


图 13.2 我 们 的 贡献 




















































































































































































































1) 我 们 设计 了 一 种 在 HDFS ( 见 本 章 参考 文献 [HADOb]) 中 存储 RDF 数据 的 存 
储 方案 。 

2) 我 们 开发 了 一 种 算法 ， 这 种 算法 可 以 保证 提供 一 个 查询 计划 ， 其 成 本 由 给 定 
SPARQL 查询 中 变量 总 数 的 日 志 界 定 。 它 使 用 汇总 统计 来 估计 连接 选择 性 ， 以 断 开 
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3) 我 们 构建 了 一 个 具有 高 度 可 扩展 性 和 容错 性 的 框架 ， 并 支持 数据 密集 型 查询 











处 理 


























) 我 们 展示 了 我 们 的 方法 对 于 所 有 的 查询 都 比 Jena 的 好 。 针 对 带 有 大 型 结果 和 集 的 
复杂 查询 。 它 的 执行 效果 要 好 于 BigWLIM 和 RDF -3X。 


13.3 ”相关 工作 























Map/Reduce 虽然 是 一 个 编程 规范 ， 但 它 正在 迅速 被 研究 者 们 认可 。 这 种 技术 在 处 
理 大 量 数据 的 网 络 社区 中 越 来 越 受 欢迎 。 它 是 解决 研究 人 员 在 云 计算 中 所 面临 的 性 能 问 
题 的 最 有 前 途 的 技术 。 在 本 章 参 考 文 献 [ ABADO9a] 中 ,作者 讨论 了 Map/Reduce 如 何 
能 够 满足 大 多 数 要 求 ， 来 构建 一 个 理想 的 云 数据 库 管理 系统 。 研 究 人 员 和 企业 使 用 
Map/Reduce 技术 进行 Web 索引 、 搜 索 和 数据 挖 气 。 在 本 节 中 ， 我 们 将 首先 说 明 与 Map/ 
Reduce 有 关 的 研究 。 紧 接着 ， 我 们 将 讨论 与 语义 Web 相关 的 工作 。 

Google 将 Map/Reduce 应 用 于 Web 索引 、 数 据 存 储 和 社交 网 络 ( 见 本 章 参 考 文献 
[ CHAN06 ]) , 。 雅 虎 在 其 数据 分 析 任务 ( 见 本 章 参 考 文献 【0LST08] ) 中 广泛 使 用 Map/ 
Reduce, IBM 已 经 成 功 地 使 用 Map/Reduce 技术 来 尝试 构建 一 个 扩大 的 向 外 扩展 的 搜索 
框架 ( 见 本 章 参 考 文献 [MORF07])。 在 最 近 的 一 项 工作 ( 见 本 章 参 考 文 献 
[SISMIO]) 中 ， 他 们 报告 了 如 何 整合 Hadoop 和 System R。 通过 将 Hadoop 与 并 行 DBMS 
( 见 本 章 参考 文献 [XU10]) 集成 ，Teradata 做 了 类 似 的 工作 。 

研究 人 员 使 用 Map/Reduce 来 扩展 分 类 器 ， 用 于 挖掘 PB 级 别 的 数据 ( 见 本 章 参 考 
文献 [MORE08 ] )。 他 们 对 数据 挖掘 工作 进行 了 数据 分 配 和 分 区 ， 并 应 用 了 三 种 数据 挖 
据 算 法 来 测试 性 能 。 数 据 挖掘 算法 正在 以 不 同 的 形式 重 写 ， 以 利用 Map/Reduce 技术 。 
在 本 章 参考 文献 [ CHUO7] 中 ,研究 者 重 写 了 众所周知 的 机 器 学 习 算 法 ， 利 用 Map/Re- 
duce 编程 规范 来 充分 发 挥 多 核 机 器 的 优势 。 该 技术 成 功 应 用 的 另 一 个 领域 是 模拟 仿真 
( 见 本 章 参 考 文献 [ MCNA07] ) 。 在 本 章 参 考 文献 [ ABOU09] 中 ， 研 究 者 提出 了 一 个 
有 趣 的 想法 ， 将 Map/Reduce 与 现 有 的 关系 数据 库 技术 相 结 合 。 这 些 工作 与 我 们 的 研究 
不 同 ， 因 为 我 们 使 用 Map/Reduce 的 语义 Web 技术 。 我 们 的 重点 是 开发 一 个 可 扩展 的 解 
决 方案 ， 用 于 存储 RDF 数据 并 使 用 SPARQL 查询 检索 它们 。 

在 语义 Web 领域 中 ， 使 用 Map/Reduce 技术 时 ， 还 没有 开展 太 多 的 工作 。 我 们 发 现 了 
两 个 相关 的 项 目 : BioMANTA ( 见 本 章 参 考 文献 [ITEE]) 项 目 和 可 扩展 、 高 性 能 、 健 壮 
和 分 布 式 ( 切 分 ) 项 目 (the Scalable, High - Performance, Robust, and Distributed, 
SHPRD) ( 见 本 章 参 考 文献 [ CLOU]), BioMANTA 建议 扩展 RDF SF ( 见 本 章 参 考 文献 
[DING05]) 并 实现 基于 Map/Reduce 的 分 子 存储 ( 见 本 章 参 考 文献 [NEWM08 ]) 。 使 用 
Map/Reduce 来 回答 查询 ， 大 约 查询 了 最 多 四 百 万 个 三 元 组 。 而 我 们 的 工作 在 以 下 方面 有 
所 不 同 : 第 一 ， 查 询 了 十 亿 个 三 元 组 。 其 次 ， 设 计 了 一 个 用 于 改进 RDF 数据 的 查询 执行 
性 能 的 存储 模式 。 我 们 根据 三 元 组 的 谓词 和 对 象 的 类 型 将 RDF 三 元 组 存储 在 文件 中 。 最 
后 ， 我 们 还 有 一 个 算法 来 确定 一 个 查询 处 理 计 划 ， 其 开销 是 由 给 定 的 SPARQL 查询 中 的 变 
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量 总 数 的 日 志 界 定 的 。 通 过 此 方法 的 使 用 ， 我 们 可 以 确定 作业 的 输入 文件 和 应 运行 的 顺 
序 。 据 我 们 所 知 ， 我 们 是 第 一 个 提出 使 用 HDFS 中 的 平面 文件 来 提供 RDF 数据 的 存储 方 
案 ， 以 及 用 于 回答 SPARQL 查询 的 Map/Reduce 作业 确定 性 算法 。 

SHPRD 是 使 用 Hadoop Cloudera 分 布 的 RDF 三 元 组 存储 系统 。 此 项 目 显示 了 初步 结 
果 ， 展 示 了 Hadoop 提高 RDF 数据 集 可 扩展 性 的 能 力 。 但 是 ，SHPRD 只 是 存储 三 元 组 
存储 架构 中 的 数据 。 它 当前 没有 查询 计划 或 重新 排序 ， 并 且 它 的 查询 处 理 器 不 会 减少 
Hadoop 作业 的 数量 。 人 们 对 语义 Web 存储 库 进 行 了 大 量 的 研究 ， 特 别 强调 查询 效率 和 
可 扩展 性 。 事 实 上 ， 存 在 太 多 这 样 的 存储 库 可 以 公平 地 评估 和 讨论 每 一 个 相应 方案 的 效 
率 和 可 扩展 性 。 因 此 ， 我 们 将 注意 语义 Web 存储 库 ， 它 们 是 开放 的 或 可 供 下 载 的 ， 并 
且 在 语义 Web 和 数据 库 社 区 中 得 到 了 良好 的 认可 。 

在 本 章 参考 文献 [ABAD09b] 和 [ABAD07] 中 ,研究 者 报告 了 一 个 垂直 分 区 的 数 
据 库 ， 其 用 于 存储 和 检索 RDF 数据 。 它 们 的 解决 方案 是 每 个 谓词 都 具有 两 列表 的 架构 。 
然后 ， 这 种 架构 在 如 CStore ( 见 本 章 参 考 文献 [STON05]) 或 MonetDB ( 见 本 章 参 考 文 
Bk [BONC06]) 的 列 存储 关系 数据 库 之 上 实现 。 他 们 通过 对 传统 型 关系 数据 库 的 方案 
来 观察 并 提高 性 能 。 我 们 在 Map/Reduce 框架 内 的 谓词 分 区 中 利用 了 这 种 技术 。 但 在 垂 
直 分 割 研究 中 ， 只 使 用 了 小 数据 库 ( <1 亿 )。 一些 论文 ( 见 本 章 参 考 文献 【SIDI08 ] 、 
[ MCGL09 ] [WEISO8]) 中 已 经 表明 ， 随 着 数据 集 的 大 小 的 增加 ， 垂直 分 割 方法 的 性 
能 急剧 下 降 。 

Jena ( 见 本 章 参考 文献 [CARR04] ) 是 一 个 语义 Web 框架 ， 用 于 管理 RDF 数据 。 
对 其 框架 设计 而 言 ， 它 允许 集成 多 个 解决 方案 来 实现 其 持久 性 。 它 还 通过 展开 推理 的 方 
式 支 持 推断 。 但 是 ,Jena 仅 限 于 三 元 组 存储 架构 。 换 名 话说 ， 所 有 数据 都 存储 在 一 个 三 
IRP, Jena 对 大 型 数据 集 的 查询 性 能 很 差 。 此 外 ， 对 数据 集 的 任何 更 改 ， 都 需要 对 已 
经 推断 的 三 元 组 全 部 都 要 进行 重新 计算 。 

BigOWLIM ( 见 本 章 参 考 文献 [KIRY05 ] ) 是 最 快 和 最 可 扩展 的 语义 Web 框架 之 
一 。 然 而 ， 它 不 像 我 们 的 框架 那样 可 扩展 ， 而 且 需 要 非常 高 端 、 非 常 昂 贵 的 机 器 。 它 需 
要 昂贵 的 硬件 (大 量 的 主 存 ) 来 装载 大 的 数据 集 ， 而 且 它 的 装载 时 间 很 长 。 正 如 我 们 
的 实验 所 示 ， 当 查询 中 没有 绑 定 对 象 时 ， 它 运行 效果 并 不 好 。 然 而 ， 在 这 种 情况 下 ， 我 
们 的 框架 性 能 表现 却 不 受 影响 。 

RDF -3X ( 见 本 章 参 考 文献 [NEUM08] ) 被 认为 是 最 快 的 现 有 语义 Web 存储 库 。 
换 句 话说 ， 它 有 最 短 的 查询 时 间 。RDF -3X 使 用 直方 图 、 汇 总 统计 和 查询 优化 来 实现 
高 性 能 的 语义 Web 查询 。 因 此 ， 对 于 具有 绑 定 对 象 和 聚合 查询 的 功能 ，RDF -3X 通常 
能 够 优 于 任何 其 他 解决 方案 。 但 是 ，RDF - 3X 性 能 在 未 绑 定 查询 中 呈 指 数 下 降 。 如 果 
选择 性 因数 较 低 ， 则 连 简单 连接 的 查询 也 会 降低 。 这 对 于 推理 查询 变 得 越 来 越 相 关 ， 通 
常 要 求 子 查 询 联合 使 用 未 绑 定 的 对 象 。 我 们 的 实验 表明 ，RDF -3X 不 仅 对 此 类 查询 较 
慢 ， 而 且 经 常 中 止 并 无 法 完成 查询 。 例 如 ,在 简单 查询 “选择 所 有 学 生 ” 时 。 这 个 
LUBM ( 利 哈 伊 基 准 ) 的 查询 要 求 我 们 选择 所 有 的 研究 生 和 本 科 生 ， 并 将 结果 结合 起 来 。 
然而 ， 在 这 个 联合 中 有 大 量 的 结果 。 虽 然 两 个 子 查询 都 很 容易 完成 ， 但 联合 将 在 RDF - 
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3X 中 中 止 ， 因 为 (30000 数据 集 ) 有 33 亿 三 元 组 的 LUBM。 

RDF 知识 库 (RDF Knowledge Base, RDFKB) ( 见 本 章 参 考 文献 [MCCLIO]) 是 使 
用 基于 比特 向 量 建立 关系 数据 库 架 构 的 语义 Web 存储 库 。RDFKB HE RDF -3X 或 垂直 
分 区 实现 有 更 好 的 查询 性 能 。 然 而 ，RDFKB 旨 在 提供 知识 库 功能 ， 如 推理 正 向 链接 、 
不 确定 性 推理 和 本 体 对 齐 。RDFKB 在 可 扩展 性 之 前 优先 考虑 这 些 目标 。RDFKB 无 法 加 
REA 30 亿 个 三 元 组 的 LUBM (30000) ， 因 此 无 法 与 我 们 的 可 扩展 性 解决 方案 相 竞争 。 

Hexastore ( 见 本 章 参 考 文献 [ WEIS08]) ) 和 BitMat ( 见 本 章 参 考 文献 [ ATREOS ] ) 
是 为 RDF 索引 而 优化 的 主 存储 器 数据 结构 。 这 些 解 决 方案 在 热 运 行 时 可 能 会 获得 优异 
的 性 能 ， 但 对 于 从 持久 存储 的 冷 运 行 来 说 ， 它 们 没有 优势 。 此 外 ， 它 们 的 可 扩展 性 与 可 
用 于 主 内 存 RAM 的 数量 直接 相关 。 这 些 产品 也 不 可 用 于 测试 和 评估 。 

在 我 们 以 前 的 工作 〈 见 本 章 参考 文献 [HUSA09] 、[ HUSA10]) 中 ,我们 开发 了 一 
种 贪 楚 和 穷 举 搜 索 算法 来 生成 查询 处 理 计 划 。 然 而 ， 穷 举 搜索 算法 比较 昂贵 ， 而 贪 梦 的 
搜索 算法 没有 界定 ， 其 理论 上 的 复杂 性 没有 定义 。 在 本 章 中， 我们 提出 了 一 个 有 上 界 的 
新 的 贪 焚 算 法 。 此 外 ， 我 们 还 观察 到 旧 的 贪 焚 算法 无 法 生成 最 优 计 划 的 情况 。 新 算法 能 
够 在 每 种 情况 下 获得 最 优 的 计划 。Join Executer 组 件 使 用 Map/Reduce 框架 运行 作业 ， 然 
后 它 将 查询 答案 从 Hadoop 中 转 给 用 户 。 






















































































13.4 架构 





我 们 的 系统 架构 如 图 13.3 
所 示 。 它 实质 上 由 SPARQL 查询 
优化 器 和 在 云 中 实现 的 RDF 数 
据 管理 需 组 成 。 

在 图 13.4 中 说 明了 一 种 可 
操作 的 体系 架构 ， 它 由 两 个 组 件 
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、 i: 数据 作业 
组 成 。 图 的 左 侧 描述 了 数据 预 处 "mmm 
理 组 件 ， 右 侧 显示 了 碍 询 应 答 组 IE 








件 。 我 们 有 三 个 用 于 数据 生成 和 

预 处 理 的 子 组 件 。 我 们 使 用 N 
Triples 转换 器 组 件 将 RDE/XML 
( 见 本 章 参考 文献 [ W3f] ) 转换 

为 N - Triples ( 见 本 章 参 考 文献 f 
[W3a]) 序列 化 格式 。 谓 词 分 割 
(Predicate Split, PS) 组 件 采用 
N - Triples 数据 并 将 其 分 割 成 谓 
词 文 件 。 然 后 ， 谓 词 文 件 被 送 入 谓词 对 象 分 割 (Predicate Object Split, POS) 组 件 中 ， 
后 者 根据 对 象 的 类 型 将 谓词 文件 分 割 成 较 小 的 文件 。 下 面 介绍 了 这 些 步 又 。 
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图 13.3 系统 架构 
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图 13.4 操作 架构 


13.4.1 数据 生成 和 存储 


对 于 我 们 的 实验 ， 我 们 使 用 LUBM ( 见 本 章 参 考 文献 [GUO05]) 数据 集 。 它 是 一 
个 基准 数据 集 ， 骨 在 使 研究 者 能 够 评估 语义 Web 存储 库 的 性 能 ( 见 本 章 参考 文献 
[GUO04]) , LUBM 数据 生成 器 以 RDE/XML 序列 化 格式 生成 数据 。 这 种 格式 不 适合 实 
现 我 们 的 实验 ， 因 为 我 们 将 数据 存储 在 HDFS 中 ， 以 平面 文件 的 形式 存在 ， 而 要 检索 一 
个 单一 的 三 元 组 ， 我 们 需要 解析 整个 文件 。 因 此 ， 我 们 将 数据 转换 为 N - Triples 以 存储 
数据 。 因 为 使 用 该 格式 ， 我 们 在 文件 的 一 行 中 就 会 具有 完整 的 RDF 三 元 组 (主体 、 谓 
词 和 客体 ) ， 这 对 于 使 用 其 进行 Map/Reduce 作业 非常 方便 。 下 面 几 节 介 绍 了 将 数据 转 
换 为 预期 格式 的 处 理 步骤 。 


13.4.2 文件 组 织 


由 于 在 Hadoop 和 Map/Reduce 框架 中 ， 一 个 文件 是 Map/Reduce 作业 的 最 小 输入 单 
位 ， 因 此 我 们 并 不 需要 将 数据 存储 在 单个 文件 中 ， 且 在 没有 缓存 的 情况 下 ， 始 终 从 磁盘 
读 取 文件 。 如 果 我 们 将 所 有 数据 放 到 一 个 文件 中 去 ， 那 么 每 次 查询 时 都 要 将 整个 文件 输 
入 到 作业 中 去 。 相 反 ， 我 们 将 数据 分 成 多 个 较 小 的 文件 。 拆 分 分 为 两 个 步骤 ， 我 们 将 在 
后 面部 分 有 所 讨论 。 


13.4.3 谓词 拆 分 


在 第 一 步 中 ， 我 们 根据 谓词 划分 数据 。 该 划分 立即 使 我 们 能 够 减少 SPARQL 查询 任 
何 没 有 变量 谓词 的 搜索 空间 。 对 于 这 样 的 查询 ， 我 们 可 以 为 每 个 谓词 选择 一 个 文件 ， 并 
仅 在 这 些 文件 上 执行 查询 。 为 简单 起 见 ， 我 们 使 用 谓词 命名 文件 。 例 如 ， 包 含 谓词 pl 
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的 所 有 三 元 组 : pred 进入 名 为 pl - pred 的 文件 。 但 是 ， 如 果 在 三 元 组 模式 ( 见 本 章 参 
考 文献 [W3e]) 中 有 变量 谓词 且 无 法 确定 客体 的 类 型 ， 则 必须 考虑 所 有 文件 。 如 果 可 
以 确定 客体 的 类 型 ， 那 么 我 们 考虑 具有 该 客体 类 型 的 所 有 文件 。 在 13.5 节 中 我 们 就 此 
进行 了 更 多 的 讨论 。 在 实际 的 RDF 数据 集中 ， 不 同 谓词 的 数量 通常 不 是 很 大 〈 见 本 章 
参考 文献 [STOC08 ] ) 。 然 而 ， 数 据 集中 的 谓词 数量 往往 很 多 。 在 这 种 情况 下 ， 系 统 性 
能 不 会 有 所 不 同 ， 因 为 我 们 只 是 选择 与 SPARQL 查询 中 指定 的 谓词 相关 的 文件 。 


13.4.4 使 用 客体 的 显 式 类 型 信息 拆 分 


在 下 一 步 中 ， 我 们 使 用 rdf_type 文件 中 显 式 类 型 的 信息 。 谓 词 rdf; type 用 于 RDF 
表示 资源 是 类 的 实例 。 首 先 将 rdf_type 文件 分 成 与 rdf: type 谓词 所 具有 不 同 的 客体 一 样 
多 的 文件 。 例 如 ， 在 本 体 中 ， 如 果 类 层次 结构 的 叶 节 点 是 eu 、c,、…、c,。 然 后 ， 我 们 
将 为 每 个 叶 节 点 创建 文件 ， 文 件 名 将 类 似 于 type_c,、type_c,、…、type_c,。 需 要 注意 
的 是 ， 客 体 值 e 、c,、…、c, 不 再 需要 存储 在 文件 中 ， 因 为 它们 可 以 容易 地 从 文件 名 中 
检索 。 这 进一步 减少 了 存储 数据 所 需 的 空间 量 。 因 此 ， 我 们 为 谓词 rdf: type 的 每 个 不 
同 客 体 值 生成 这 样 一 个 文件 。 


13.4.5 使 用 客体 的 隐 式 类 型 信息 拆 分 


我 们 根据 客体 的 类 型 划分 剩余 的 谓词 文件 。 并 非 所 有 客体 都 是 统一 资源 标识 符 (Uni- 
form Resource Identifier，URI) ， 有 些 是 文字 。 这 些 文字 保留 在 由 谓词 命名 的 文件 中 ， 它 们 
不 需要 进一步 处 理 。 这 些 文件 中 没有 提 到 URI 客体 的 类 型 信息 ， 但 我 们 可 以 从 type * X 
件 中 检索 。URI 客体 移动 到 它们 各 自 的 名 为 predicate type 的 文件 中 。 例 如 ， 如 果 三 元 组 具 
有 谓词 p 日 URI 客体 的 类 型 为 c， 则 主体 和 客体 将 显示 在 文件 p_e; 中 的 一 行 中 。 要 做 这 个 
Pear, 我们 需要 加 入 一 个 带 有 type。 * 文件 的 谓词 文件 来 检索 类 型 信息 。 

我 们 在 13.5 Tr fixe Map/Reduce 框架 ， 它 有 三 个 子 组 件 。 它 从 用 户 中 获取 SPAR- 
QL 查询 ， 并 将 其 传递 给 输入 和 计划 生成 器 。 该 组 件 通过 使 用 13. 5 节 中 描述 的 算法 来 选 
择 输入 文件 ， 决 定 需要 多 少 Map/Reduce 作业 ， 并 将 信息 传递 给 使 用 Map/Reduce 框架 
运行 作业 的 Join Executer 组 件 。 然后 它 将 查询 到 的 答案 从 Hadoop 中 转 给 用 户 o 





























































































































































































































13.5 Map/Reduce 框架 


13.5.1 简介 


Map/Reduce 框架 是 我 们 云 计算 工作 的 核心 。 我 们 将 在 本 书 的 多 个 章节 中 讨论 Map/ 
Reduce， 因 为 它 与 本 章 的 内 容 有 关 。 在 本 节 中 ， 我 们 将 讨论 如 何 使 用 Map/Reduce 框架 
组 件 来 响应 SPARQL 查询 。 

13. 5. 2 节 我 们 讨论 选择 输入 文件 来 响应 查询 的 算法 。13.5.3 节 描 述 了 生成 一 个 
SPARQL 查询 的 计划 中 所 需 的 成 本 估算 。 它 介绍 了 我 们 在 以 下 讨论 中 使 用 的 几 个 术语 。 
我 们 还 描述 了 在 评估 计划 成 本 中 应 该 遵循 的 理想 模型 ， 并 介绍 我 们 在 实践 中 使 用 的 基于 
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启发 式 的 模型 。13. 5. 4 节 提 出 了 基于 启发 式 的 贪 禁 算 法 ， 以 生成 使 用 13. 5. 3 节 介 绍 的 
成 本 模型 的 查询 计划 。 在 某 些 情况 下 ， 我 们 会 面临 在 限定 条 件 下 来 制定 计划 。 在 
13.5. 5 节 中 ， 我 们 将 讨论 如 何 处 理 这 些 特殊 情况 。13. 5.6 节 描 述 了 如 何 通 过 一 个 示例 
查询 来 实现 Hadoop 与 Map/Reduce 作业 的 连接 。 


13.5.2 输入 文件 选择 


在 确定 作业 之 前 ， 选 择 需 要 输入 到 作业 的 文件 。 我 们 在 查询 处 理 的 这 个 步骤 中 应 用 
了 一 些 查 询 重 写 功 能 ， 接 受用 户 提交 的 查询 并 遍历 三 元 组 模式 。 我 们 可 能 会 遇 到 以 下 
情况 . 

1) 在 三 元 组 模式 中 ， 如 果 谓 词 是 变量 ， 则 选择 所 有 文件 作为 作业 的 输入 并 终止 
人 遍历。 

2) 如 果 谓 词 是 rdf: type， 并 且 客 体 是 具体 的 ， 我 们 选择 具有 该 特定 类 型 的 类 型 文 
件 。 例 如 ， 对 于 LUBM 查询 9 (Listingl) ， 我 们 可 以 选择 文件 ype_Student 作为 输入 集 的 
一 部 分 。 然 而 ， 这 产生 了 一 个 有 趣 的 情景 。 在 我 们 的 数据 集中 ， 实 际 上 没有 名 为 type_ 
Student 的 文件 ， 因 为 Student 类 不 是 本 体 树 中 的 一 个 叶 节 点 。 在 这 种 情况 下 ， 我 们 参考 
LUBM 本 体 论 ( 见 本 章 参考 文献 [LEHI] ) 来 确定 正确 的 输入 文件 集 。 我 们 添加 文件 
type. GraduateStudent, type_ UndergraduateStudent ， 并 且 将 作为 GraduateStudent 的 type_ 
ResearchAssistant, UndergraduateStudent 和 ResearchAssistant 都 是 子 树 的 叶 节 点 ， 其 根 在 
学 生 节 点 。 

3) 如 果 谓 词 是 rdf: type， 并 且 客 体 是 一 个 变量 ,那么 如 果 变 量 的 类 型 由 另 一 个 三 元 
组 模式 定义 ， 我们 选择 具有 该 特定 类 型 的 类 型 文件 。 否则， 我 们 选择 所 有 类 型 的 文件 。 

4) 如 果 谓 词 不 是 rdf: type， 并 且 客 体 是 一 个 变量 ,那么 我 们 需要 确定 客体 的 类 型 
是 否 由 查询 中 的 另 一 个 三 元 组 模式 指定 。 在 这 种 情况 下 ， 我 们 可 以 重 写 查询 来 消除 一 些 
连接 。 例 如 , 在 LUBM Query 9 (Listingl) 中 , 了 的 类 型 被 指定 为 院 系 和 2 被 指定 为 课 
程 ， 这 些 变量 用 作 最 后 三 个 三 元 组 模式 中 的 客体 。 如 果 我 们 选择 文件 advisor_Lecturer、 
advisor_PostDoc advisor  FullProfessor, 、advisor_ AssociateProfessor advisor. AssistantProfes- 
sor 和 advisor_ VisitingProfessor 作为 输入 集 的 一 部 分 ， 那 么 第 2 行 的 三 元 组 模式 就 变 得 不 
必要 了 。 类 似 地 ， 如 果 文 件 采 取 Course. Course 并 且 选 择 Course_ GraduateCourse ， 则 第 3 
行 中 的 三 元 组 模式 变 得 不 必要 。 因 此 ， 我 们 得 到 如 Listing2 所 示 的 重 写 查 询 。 但 是 ， 如 
果 没 有 指定 客体 的 类 型 ， 那么 我 们 需要 选择 该 谓词 的 所 有 文件 。 

5) 如 果 谓 词 不 是 rdf: type, 并且 客体 是 具体 的 ， 那 么 我 们 应 选择 该 谓词 的 所 有 文件 。 

Listing 1. LUBM Query 9 
SELECT ?X ?Y ?Z WHERE { 

?X rdf:type ub:Student. 
?Y rdf:type ub:Faculty. 
?2 rdf:type ub:Course. 
?X ub:advisor ?Y. 

?Y ub:teacherOf ?2. 

?X ub:takesCourse ?2} 
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Listing 2. Rewritten LUBM Query 9 
SELECT ?X ?Y ?Z WHERE { 

?X rdf:type ub:Student. 

?X ub:advisor ?Y. 

?Y ub:teacherOf ?2. 

?X ub:takesCourse ?2} 


13.5.3 查询 处 理 的 成 本 评估 


我 们 运行 Hadoop 作业 来 应 答 SPARQL 查询 。 在 本 节 中 ， 我 们 将 讨论 如 何 评估 工作 
成 本 。 然 而 ， 在 这 之 前 ， 需 介绍 一 些 以 后 使 用 的 定义 : 

定义 13.1 

三 元 组 模式 ，TP: 三 元 组 模式 是 由 出 现在 SPARQL 查询 WHERE 子 句 中 的 主体 、 

































































词 和 客体 构成 的 有 序 集合 。 主 体 、 谓 词 和 客体 可 以 是 变量 (无 界 ) 或 具体 值 cd 
定义 13.2 
三 元 组 模式 连接 ，TPJ: 三 元 组 模式 连接 是 两 个 可 变 三 元 组 模式 之 间 的 连接 。 
定义 13.3 


Map/Reduce 连接 ，MRJ: Map/Reduce 连接 是 一 个 变量 上 的 两 个 或 更 多 个 三 元 组 模 
式 之 间 的 连接 。 

定义 13.4 

作业 ，JB: 作业 JB 是 一 个 Hadoop 作业 ， 在 这 里 要 做 一 个 或 多 个 MRJ. JB 有 一 组 输 
入 文件 和 一 组 输出 文件 。 

定义 13.5 

Conflicting Map/ReduceJoins, CMRJ; 冲突 的 Map/Reduce 连接 是 一 对 共享 三 元 组 模 
式 的 不 同 变量 上 的 MRJ。 

定义 13.6 

Nonconflicting Map/ReduceJoins, NCMRJ: 非 冲 突 的 Map/Reduce 连接 是 一 对 MRJ, 
不 共享 任何 三 元 组 模式 或 共享 三 元 组 模式 ， 并 且 MRJ 位 于 同一 
个 例子 会 更 好 地 说 明 这 些 术 语 。 在 Listing3 中 ， 我 们 显示 LUBM Query 12 第 2、 
3、4、5 行 各 有 一 个 三 元 组 模式 。 第 2 行 和 第 (uA dy d a cU 
如 果 我 们 做 两 个 MRJ， 一 个 在 第 2 行 和 第 4 行 的 TP 之 间 的 变量 ? X 上 ， 另 一 个 在 第 
行 和 第 5 行 的 TP 之 间 的 变量 ? Y 上 ， 第 4 行将 有 一 个 CMRJ 作为 TP (? X ub: works- 
For? Y) 参与 两 个 不 同 变量 和 和 了 的 两 个 MRJ。 这 种 类 型 的 连接 称 为 CMRJ， 因 为 在 
Hadoop 作业 中 ，TP 的 多 个 变量 不 能 同时 成 为 一 个 键 ， 并 且 在 该 键 上 执行 MRJ。 所 示 的 
NCMRJ 将 是 在 变量 ? X 上 的 第 2 行 和 第 4 行 中 的 三 元 组 模式 之 间 的 一 个 MRJ， 而 在 变 
tg? Y EAST 3 和 5 中 的 三 个 模式 之 间 是 另 一 个 MRJ。 这 两 个 MRJ 可 以 组 成 一 个 JB 

Listing 3. LUBM Query 12 
SELECT ?X WHERE { 
?X rdf:type ub:Chair. 
?Y rdf:type ub:Department. 
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?X ub:worksFor ?Y. 
?Y ub:subOrganizationOf http://www.U0.edu) 





13.5.3.1 理想 模型 

为 了 响应 SPARQL 查询 ， 我 们 可 能 需要 多 个 作业 。 因 此 ， 在 理想 的 情况 下 ， 用 于 处 
理 查 询 的 成 本 估算 需 要 对 每 个 响应 该 查询 的 作业 进行 单独 的 成 本 评估 。 一 个 作业 包含 三 
个 主要 任务 ， 即 读 、 排 序 和 写 。 我 们 根据 这 三 项 任务 去 评估 一 份 作 业 的 成 本 。 对 于 每 个 
任务 ， 单 位 成 本 被 分 配给 它 处 理 的 每 个 三 元 组 模式 。 在 当前 的 模型 中 ， 我 们 假设 读 和 写 
的 成 本 是 一 样 的 。 












































n-l 
Cost = ( V MI, + MO, + RI, + RO,)+ MI, + MO, + RI, (13.1) 
i=l 
n-l 
= (》 Job,)+ MI, + MO, + RI, (13.2) 
i=l 
Job, = MI, + MO, + RO, + RI, (Wi < n) (13.3) 














XE, MI, 是 Job, 的 映射 输入 阶段 ，MO, 是 Job, 的 映射 输出 阶段 ，RI 是 Job, 的 规 
约 输入 阶段 ，RO, 是 Job, 的 规约 输出 阶段 。 

式 (13.1) 是 处 理 查询 的 总 成 本 。 它 是 每 个 作业 的 单个 成 本 总 和 ， 并 且 是 最 终 作 
业 的 唯一 映射 阶段 。 我 们 不 考虑 最 终 作 业 的 规约 输出 成 本 ， 因 为 当 这 个 输出 是 查询 和 给 
定数 据 集 的 最 终结 果 时 ， 任 何 查询 计划 都 是 相同 的 。 作 业 本 质 上 对 文件 数据 执行 Map/ 
Reduce 任务 。 式 (13.2) 表达 了 将 Map/Reduce 任务 划分 为 子 任务 。 因 此 ， 为 了 估算 每 
个 作业 的 成 本 ， 我 们 将 合并 每 个 子 任务 的 估算 成 本 。 

映射 输入 (Map Input, MI) 阶段 。 此 阶段 从 存储 在 HDFS 的 选 定 输入 文件 中 读 取 三 
元 组 模式 。 因 此 ， 我 们 可 以 用 每 个 选 定 文件 中 三 元 组 的 总 体 数 量 去 估计 MI 阶段 的 开销 。 

映射 输出 (Map Output, MO) 阶段 。MO 阶段 的 估计 取决 于 正在 处 理 的 查询 类 型 。 
如 果 查 询 没有 约束 变量 (例如 [? X ub: worksFor? YJ); 则 映射 阶段 的 输出 等 于 输入 。 
所 有 三 元 组 模式 都 转换 为 键 值 对 ， 并 作为 输出 。 因 此 ， 对 于 这 样 的 查询 ，MO 成 本 将 与 
MI 成 本 相同 。 然 而 ， 如 果 查 询 涉 及 绑 定 变量 (例如 ，[? Y ub: subOrganizationOf < ht- 
tp: //www. U0. edu > ]) , 则 在 创建 键 值 对 之 前 ， 可 以 应 用 组 件 选 择 性 评估 。 所 得 到 的 
三 元 组 模式 估算 将 考虑 到 MO 阶段 的 成 本 ， 所 选 的 三 元 组 也 将 写 人 本 地 磁盘 。 

规约 输入 (Reduce Input, RI) 阶段 。 在 这 个 阶段 ， 通 过 HTTP 读 取 来 自 MO 阶段 
的 三 元 组 ， 然 后 根据 它们 的 键 值 对 进行 排序 。 排 序 后 ， 具 有 相同 键 的 三 元 组 分 组 在 一 
起 。 因 此 ，RI 阶段 的 成 本 估计 等 于 MO 阶段 。 在 RI 阶段 中 排序 的 键 值 对 的 数量 等 于 在 
MO 阶段 中 生成 的 键 值 对 的 数量 。 

规约 输出 (Reduce Output, RO) 阶段 。 RO 阶段 涉及 执行 链接 。 因 此 ， 在 这 个 阶 
Be, 我 们 可 以 使 用 链接 三 元 组 模式 选择 性 汇总 统计 信息 ， 来 估计 其 输出 的 大 小 。 下 面 ， 
我 们 详细 讨论 我 们 框架 所 需 的 链接 三 元 组 的 模式 选择 性 汇总 统计 信息 。 

然而 ， 在 实践 中 上 述 讨论 仅 适 用 于 第 一 个 作业 。 对 于 后 续 作 业 ， 我 们 缺乏 精确 的 知识 ， 
也 不 能 在 第 一 个 作业 的 应 用 加 入 链接 后 对 所 选择 的 三 元 组 模式 数量 进行 估计 。 因 此 ， 对 于 这 
些 作业 ， 我 们 可 以 将 第 一 个 作业 中 RO 阶段 的 大 小 作为 后 续 作 业 中 不 同 阶段 的 上 限 。 
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X (13.3) 显示 了 非常 重要 的 假设 。 它 说 明了 中 间作 业 的 总 成 本 ， 当 i<n， 在 计 
算 总 成 本 时 应 该 包括 RO 阶段 的 成 本 。 
13.5.3.2 启发 式 模型 

在 本 节 中 ， 我 们 展示 的 理想 模型 是 不 实际 的 或 是 不 具有 成 本 效益 优势 的 。 这 有 几 个 
问题 使 得 理想 模型 在 实践 中 很 少 被 关注 。 首 先 ， 理 想 模 型 考虑 了 简单 的 抽象 成 本 ， 即 不 
同 阶 段 读 取 和 写 入 的 三 元 组 数量 ,忽略 了 复制 、 排 序 等 其 他 情况 的 实际 成 本 ， 也 忽略 了 
这 些 三 元 组 以 及 在 Hadoop 中 运行 作业 的 开销 。 但 是 将 这 些 成 本 精确 地 纳入 模型 中 是 一 
项 艰巨 的 任务 。 能 做 出 相当 好 的 评估 ， 或 许 是 一 项 不 平凡 的 工作 。 第 二 ， 为 了 估计 中 间 
加 入 的 输出 ， 我 们 需要 保持 全 面 的 汇总 统计 。 在 Hadoop 中 的 Map/Reduce 作业 中 ， 变 量 
的 所 有 连接 都 连接 在 一 起 。 例 如 ， 在 重 写 LUBM 查询 9 (Listing 2) F, BBX LAH 
个 连接 。 当 运行 作业 以 对 对 进行 连接 时 , XX 上 的 所 有 连接 在 三 模式 1、2 和 4 之 间 完 成 。 
如 果 钱 上 有 三 个 以 上 的 连接 ， 则 所 有 连接 都 将 在 一 个 作业 中 人 处理 。 这 表明 要 收集 汇总 
统计 信息 ， 来 估计 连接 选择 性 ， 这 时 我 们 将 面临 指数 量 级 的 连接 情况 。 例 如 ， 在 具有 
pl, p2 和 p3 的 三 元 组 模式 之 间 ， 可 能 存在 23 种 类 型 的 连接 ， 因 为 在 每 个 三 元 组 模式 
中 ， 变 量 既 可 以 作为 主体 也 可 以 作为 客体 。 在 重 写 Query 9 的 情况 下 ， 它 是 1、2 和 4 之 
间 的 主体 一 主体 一 主体 连接 。 这 三 个 之 间 可 以 有 更 多 类 型 的 连接 ， 例 如 主体 一 客体 一 主 
体 、 客 体 一 主体 一 客体 等 。 这 意味 着 ,在 己 谓 词 之 间 ， 单 个 变量 上 可 以 有 27 种 类 型 的 
连接 (忽略 变量 可 能 同时 出 现 为 三 元 组 模式 中 主体 和 客体 的 情况 ) 。 如 果 数 据 集中 有 P 
个 谓词 ， 那 么 就 需要 收集 汇总 统计 ， 全 部 的 连接 数量 可 以 用 如 下 公式 计算 

2x Cp +2xC + +2 xC 

Tr LUBM 数据 集中 ， 有 17 个 谓词 。 总 共有 129140128 连接 情况 ， 它 是 一 个 庞大 的 数 
据 。 收集 如 此 大 量 连 接 情 况 的 汇总 统计 数据 将 是 非常 消耗 时 间 和 空间 的 。 因 此 ， 我 们 采 
取 了 另 一 种 方法 。 

我 们 注意 到 ， 在 Hadoop 中 运行 作业 有 很 大 的 开销 。 因 此 ， 如 果 我 们 最 大 限度 地 减 
少 应 答 查 询 的 作业 ， 那 么 就 可 以 获得 最 快 的 方案 。 这 些 开 销 是 由 几 个 磁盘 L/O 和 网 络 传 
输 引 起 的 ， 他 们 可 能 是 任何 Hadoop 作业 的 组 成 部 分 。 当 作业 提交 到 Hadoop 集群 时 ， 至 
少 要 执行 以 下 一 组 操作 : 

1) 可 执行 文件 从 客户 端 传输 到 Hadoop JobTracker ( 见 本 章 参 考 文献 [WIKIa] ) 。 

2) JobTracker 决定 哪 一 个 TaskTrackers ( 见 本 章 参 考 文献 [ WIKIb]) 将 执行 这 项 工作 。 

3) 可 执行 文件 通过 网 络 分 发 给 TaskTrackers。 

4) 从 HDFS 读 取 数 据 就 是 映射 过 程 的 开始 。 

5) 将 映射 输出 写 和 人 磁盘 。 

6) 从 磁盘 读 取 映射 输出 ， 无 序 传输 〈 运 行规 约 进程 ， 通 过 网 络 传输 到 TaskTrack- 
ers), HF, FPS AEE. 

7) 通过 读 取 磁盘 的 输入 来 启动 规约 进程 。 

8) 将 规约 输出 写 和 磁盘。 

即使 对 于 少量 数据 ， 这 些 磁盘 操作 和 网 络 传输 也 是 昂贵 的 。 例 如 ， 在 我 们 的 实验 
中 ， 可 以 观察 到 ， 一 个 作业 所 带 来 的 额外 开销 几乎 等 同 于 读 取 十 亿 个 的 三 元 组 。 原因 是 
在 每 个 作业 中 ， 映 射 进 程 的 输出 总 是 在 规约 进程 之 前 进行 排序 。 即 使 用 户 不 需要 这 种 排 
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序 也 是 不 可 避免 的 。 因 此 ， 在 个 作业 中 处 理 成 百 上 千 万 三 元 组 的 成 本 将 会 更 低 ， 而 不 
FETE n +1 作业 中 处 理 数 个 较 少 的 三 元 组 。 

为 了 进一步 研究 ， 我 们 做 了 一 个 实验 ， 使 用 了 Listings 所 示 的 查询 。 在 ? Z 上 的 TP 
2 和 3 之 间 的 连接 选择 性 是 最 高 的 。 因 此 ， 一 个 查询 计划 生成 的 算法 为 第 一 个 作业 选择 
一 个 连接 时 ， 需 要 使 用 选择 性 因子 选取 连接 。 由 于 其 他 TP1 和 4 与 TP2 或 3 共享 变量 ， 
因此 它们 不 能 参加 任何 其 他 的 连接 ; 而且， 它们 不 共享 任何 变量 ， deuil 
执行 的 唯一 可 能 的 连接 是 ? X 上 的 TP2 和 3 之 间 的 连接 。 一 旦 这 个 连接 完成 ， 剩 余 两 
连接 就 是 : 一 个 在 TP 1 和 关于 变量 ? X 的 第 一 个 作业 的 连接 输出 之 间 ， 一 个 在 TP 4 fa 
关于 变 Et? 了 的 第 一 个 作业 的 连接 输出 之 间 。 我 们 发 现 第 BUE 
因此 ， 第 二 个 作业 将 会 加 入 ，TP 4 将 再 次 不 参加 。 在 第 三 个 和 最 后 一 个 作业 中 ， 
个 作业 的 连接 输出 将 与 关于 变 P A a 
的 方案 。 但 最 小 作业 方案 是 一 个 两 作业 计划 ， 其 中 第 一 作业 连接 到 关于 ? X HY TP 1 A2 
以 及 关于 ? Y EM TP3 和 4。 第 二 个 和 最 后 的 作业 连接 到 关于 ? Z 的 第 一 个 作业 的 两 个 
连接 输出 。 我 们 得 到 的 查询 运行 时 间 在 本 章 参 考 文献 [HUSAlla] 里 给 出 。 

Listing 4. Experiment Query 

?S]l ub:advisor ?X. 

?X ub:headOf ?2. 

?2 ub:subOrganizationOf ?Y. 

?2S2 ub:mastersDegreeFrom ?Y 

对 于 每 个 数据 集 ， 即 使 三 作业 方案 由 于 连接 选择 性 顺序 而 产生 较 少 的 中 间 数 据 ， 我 
们 也 能 发 现 两 作业 计划 比 三 作业 计划 更 快 。 我 们 也 可 以 通过 另 一 个 小 型 实验 中 的 观察 结 
R, 来 解释 这 一 点 。 我 们 生成 了 包含 随机 整数 ， 大 小 为 5SMB 和 LOMB 的 文件 。 将 文件 
WE HDFS 中 。 对 于 每 个 文件 ， 我 们 首先 通过 程序 读 取 文 件 并 记录 所 需 的 时 间 。 在 读 取 
时 ， 我 们 的 程序 读 取 文 件 的 三 个 可 用 副本 中 的 一 个 。 然 后 ， 我 们 运行 了 一 个 Map/Re- 
duce 作业 ， 重 新 编写 已 排序 数字 的 文件 。 然 后 ， 使 用 Map/ Reduce 排序 来 排序 输出 。 请 
注意 ， 当 它 写 入 文件 时 ,会 写 人 三 个 重复 的 文件 。 我 们 发 现 对 于 5 MB 文件 ，Map/Re- 
duce 作业 读 取 、 排 序 和 写 入 的 时 间 要 长 达 24.47 Ro XF 10 MB 的 文件 ， 它 是 42.79 
次 。 这 清楚 地 显示 了 Map/Reduce 作业 的 写 入 和 数据 传输 操作 比 仅 从 一 个 副本 的 简单 读 
取 更 昂贵 。 由 于 作业 的 数量 ， 三 作业 方案 需要 进行 更 多 的 磁盘 读 写 操作 以 及 网 络 数据 传 
输 ， 因 此 即使 读 取 较 少 的 输入 数据 ， 其 结果 也 比 两 作业 方案 慢 。 
由 于 这 些 原因 ， 我 们 不 追求 理想 的 模式 。 我 们 遵循 实用 模式 ， 即 生成 具有 最 少 可 能 
业 的 查询 方案 。 然 而 ， 在 生成 最 小 作业 方案 的 同时 ， 每 当 我 们 需要 在 一 个 作业 中 的 多 个 连 
接 中 的 选择 要 考虑 的 连接 ， 而 不 是 随机 选择 时 ， 我 们 都 要 使 用 汇总 连接 统计 信息 。 这 在 
13.5.4 PFARRER, ESAK [HUSAlla] 中 提供 了 实验 结果 的 有 关 图 表 的 更 多 细节 。 


13.5.4 查询 计划 生成 


在 本 节 中 ， 我 们 首 移 定 义 查询 方案 生成 问题 ， 并 说 明 为 理想 模型 以 及 实际 模型 生成 
最 佳 〈 即 最 低 成 本 ) 查询 的 方案 在 计算 上 是 昂贵 的 。 然 后 ， 我 们 将 提出 一 个 局 发 式 和 一 
个 贪 梦 方法 来 产生 一 个 近似 的 解决 方案 来 产生 最 佳 方 案 。 
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运行 示例 

我 们 将 使 用 以 下 查询 作为 本 节 中 的 一 个 运行 示例 : 

Listing 5. Running Example 

SELECT ?V,?X,?Y,?2 WHERE{ 

?X rdf:type ub:GraduateStudent 

?Y rdf:type ub:University 

?Z ?V ub:Department 

?X ub:memberOf ?2 

?X ub:undergraduateDegreeFrom ?Y} 

为 了 简化 表示 ， 我 们 只 会 用 该 模式 的 变量 来 引用 TP。 例 如 ， 第 一 个 TP (? X rdf: 
type ub; GraduateStudent) 将 被 简单 表示 为 X。 此 外 ， 在 简化 版 本 中 ， 整 个 查询 将 表示 
如 下 :| 对、Y、Z、XZ、XY| 。 我 们 将 使 用 符号 连接 (XY, X) 表示 公共 变量 并 上 的 两 
个 TP (XY AX) 之 间 的 连接 操作 。 

定义 13.7 

(最 低 成 本 方案 生成 问题 ) 。( 最 佳 方案 问题 又 名 Bestplan 问题 ) 。 对 于 给 定 的 查询 , 
最 佳 方案 问题 是 生成 一 个 作业 方案 ， 以 便 最 大 限度 地 减少 作业 的 总 成 本 。 请 注意 ， 最 佳 
方案 考虑 了 更 一 般 的 情况 ， 其 中 每 个 作业 都 有 与 其 相关 的 成 本 ( 即 理想 模型 ) 。 

例如 在 我 们 的 运行 示例 中 ， 有 两 个 可 能 的 作业 方案 如 下 所 示 : 


















































方案 1. job, = ，|X、XY、XZ| 

则 有 TP-, {YZ, YZ} .job = {Y, YZ}, 

WATP=, |Z, Zl .job 2, {Z, Zl. RMA =, 成 本 (job,) + 成 本 (job). 
方案 2. job = (XZ, Z| 和 连接 (XY, Y) 

WE TP-, |X, X, X} .job =, Æ% (X, X, X), 





总 成 本 = ， 成 本 (job,) + 成 本 (job). 

最 佳 方案 问题 是 在 所 有 可 能 的 作业 方案 中 找到 最 低 成 本 的 作业 方案 。 接 下 来 ,我们 
定义 一 些 相 关 的 术语 ， 并 讨论 方法 的 复杂 性 。 

定义 13.8 

(连接 变量 ) 。 两 个 或 多 个 三 元 组 模式 中 常见 的 变量 。 例 如 ， 在 前 面 的 运行 示例 查 
ir, x, Y, Z 是 连接 变量 ， 但 了 不 是 。 

定义 13.9 

(完全 消除 ) 。 一 个 消除 连接 变量 的 连接 操作 。 例 如 ， 在 示例 查询 中 ， 如 果 我 们 加 
A (XY, Y), ， 则 可 以 完全 消除 Y. 

定义 13. 10 

(部 分 消除 ) 。 一 个 部 分 消除 连接 变量 的 连接 操作 。 例 如 ， 在 示例 查询 中 ， 如 果 我 
们 在 相同 的 作业 中 执行 连接 (XY, Y) 和 连接 (X, ZX), ， 则 所 得 到 的 三 元 组 模式 将 是 
|X, Z, Xl, KE, 了 将 被 完全 消除 ,但 XX 将 被 部 分 消除 。 所 以 ， 连 接 (X, ZX) 执行 
部 分 消除 。 

定义 13.11 

E - Count (V), E- count (V) 是 在 完全 消除 变量 V 之 后 得 到 的 三 元 组 模式 中 的 连 
接 变 量 的 数量 。 在 运行 示例 中 ， 连 接 (X, XY, XZ) 完全 消除 了 和 ， 并 且 得 到 的 三 元 组 
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模式 (YZ) 具有 两 个 连接 变量 了 上 和 2Z， 所 以 下 上 -count (X) =2. FE, E - count (Y) 
= 1, E-count (Z) =1, 
13.5.4.1 最 佳 方案 的 计算 复杂 度 

可 以 看 出 ， 生 成 最 低 成 本 查询 方案 在 计算 上 是 代价 很 高 的 ， 因 为 搜索 空间 是 指数 级 
的 。 H^c, 我 们 将 这 个 问题 公式 化 ， 人 然后 给 出 其 复杂 性 。 
13.5.4.1.1 问题 公式 化 

我 们 把 Bestplan 作为 搜索 问题 进行 公式 化 。 令 G = (V, E) 为 加 权 有 向 图 ， 其 中 每 个 
顶点 w eV 表示 三 元 组 模式 的 状态 ， 每 个 边 e,e (vi, 0.) EE AN) statev, 到 statev, 的 
转换 。 vw 是 没有 执行 连接 的 初始 状态 ， 即 给 定 的 查询 。 此 外 ,vw 是 目标 状态 ， 它 代表 了 
所 有 连接 执行 的 三 元 组 模式 的 状态 。 问 题 是 找到 从 vw 到 vw, 的 最 短 加 权 路 径 。 

例如 ， 在 我 们 的 运行 示例 查询 中 ， 初 始 状态 w = ，1X，7Y，2Z，X7，YZ}1 ,目标 状 
态 为 w ,= 纪 ， 即 不 再 有 三 元 组 模式 。 假 设 第 一 个 作业 (Gob) 执行 连接 (X, XY, 
XZ)。 然 后 ， 结 果 三 元 组 模式 (新 状态 ) 将 是 w = IY, Z, YZ}, H job 通过 edge 
(vy, v,) 表示 。edge (v, v,) 的 权重 是 job, = cost (job) 的 成 本 ， 其 中 cost 是 给 定 的 
成 本 函数 。 图 13. 4 显示 了 示例 查询 的 部 分 图 。 
13.5.4.1.2 搜索 空间 大 小 

给 定 图 G=(V,E), Dijkstra 的 最 短路 径 算 法 可 以 在 O (|Vilog|V\ + |E|) 时 间 内 
找到 从 源 到 所 有 其 他 节点 的 最 短路 径 。 然 而 ， 对 于 Bestplan ， 可 以 看 出 ， 在 最 坏 的 情况 
下 ,V2*， 其 中 是 给 定 查 询 中 连接 变量 的 总 数 。 因 此 ， 图 中 顶点 的 数量 是 指数 级 的 ， 
导致 指数 级 搜索 问题 。 在 本 章 参考 文献 [ HUSAl1a] F, 我们 已 经 表明 ， Bestplan 问题 
的 最 坏 情况 的 复杂 性 是 天 指数 级 的 ， 即 给 定 查询 中 加 入 变量 的 数量 。 
13.5.4.2 条 件 放宽 的 最 佳 方案 问题 和 近似 解决 方案 

在 条 件 放宽 的 最 佳 方案 问题 中 ， 我 们 假定 所 有 作业 有 统一 的 成 本 。 虽 然 这 种 条 件 放 
宽 并 不 会 减少 搜索 空间 大 小 ， 但 问题 在 于 找到 具有 最 少 作 业 数量 的 作业 方案 。 请 注意 ， 
这 是 模型 应 用 到 实际 的 问题 。 

定义 13. 12 
(条 件 放宽 的 最 佳 方案 问题 )。 条 件 放宽 的 最 佳 方案 问题 是 找到 包含 最 少 作业 的 作 
业 方 案 。 

接 下 来 ， 我 们 说 明 如 果 合 理 选择 连接 ， 并 旦 不 满足 条 件 的 连接 操作 在 作业 中 被 撤 
销 ， 那 么 我 们 可 以 为 任何 查询 设 定 所 需 的 最 大 作业 数量 的 上 限 。 然 而 ， 生 成 所 有 可 能 的 
作业 方案 仍然 在 计算 上 是 昂贵 的 。 因 此 ， 我 们 采用 一 种 贪 焚 算 法 (算法 1)， 找 出 “条 
件 放宽 的 最 佳 方案 问题 ”的 近似 解决 方案 ， 保 证 在 上 限 范 围 内 找到 作业 方案 。 

定义 13. 13 

(尽早 消除 启发 式 )。 尽 早 消除 启发 式 尝 试 在 每 项 作业 中 尽 可 能 多 地 做 到 完全 消除 。 

这 个 启发 式 留 下 了 最 少数 量 的 变量 来 连接 到 下 一 个 作业 。 为 了 应 用 这 个 启发 式 算法 ， 
我 们 首先 必须 在 EE — count 最 少 的 每 个 作业 中 选择 变量 。 算 法 1 中 应 用 了 这 个 启发 式 算法 。 

算法 1: 条 件 放宽 的 最 佳 方案 (查询) 

1: Q+-Remove non - joining variables (Q) 

2: while Q z^ Empty do 
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: J 一 1 作业 总 数 
: U=, duce, uy} < 所 有 变量 均 按 它们 的 下- counts 值 进行 非 降序 排列 
，Job,*Empty// 当 前 作业 的 连接 操作 列表 
: tmp*— Empty // 临 时 存储 中 间 结 果 
// 三 元 组 模式 

7: fori 2 110 K do 
8: if Can — Eliminate (Q, u;) =true then 

// 尽 可 能 地 完全 或 者 部 分 消除 
9. tmp*-imp U Join — result (TP (Q, u,)) 
10; Q—Q-TP (Q, u) 
11; Job,——Job,U join (TP (Q, u;)) 
12; end if 
13: end for 
14: QQ U tmp 
15: J—J «41 
16; end while 
17; return | Job,, ©, Job, || 
算法 1 的 描述 : 该 算法 从 查询 0 中 删除 所 有 非 连接 变量 开始 。 在 运行 示例 中 ，0Q = 
|X, Y, VZ, XY, XZ| ， 并 移 除非 连接 变量 V 使 0 = | X, Y, Z, XY, XZ}. TE while 
循环 中 ， 从 Job, 开始 生成 作业 方案 。 在 第 4 行 中 , RARI CNA E — count 对 变量 进 
行 排序 。 排 序 变量 为 U= |Y, Z, Xt, HOJY AMZ A E-count 21, X78 E - count 22, 
对 于 每 个 作业 ， 连 接 操 作 列 表 存 储 在 变量 Job, 中 ， 其 中 /是 当前 作业 的 ID。 另 外 ,使 
用 临时 变量 tmp 来 存储 要 在 当前 作业 中 执行 的 连接 的 结果 三 元 组 ( 行 6)。 在 for 循环 
中 ， 检 查 每 个 变量 以 查看 变量 是 否 可 以 完全 或 部 分 消除 (第 8 行 )。 如 果 是 ， 我 们 将 连 
接 结果 存储 在 临时 变量 (第 9 行 ) rp, 更 新 Q (第 10 £7). 将 此 连接 添加 到 当前 作业 
(第 11 行 )。 在 我 们 运行 的 例子 中 , 会 有 以 下 操作 .for 循环 的 迭代 1: u, = (Y) 可 以 
彻底 消除 。 这 里 ，7P(Q@, Y), BERAI Q 中 的 三 元 组 模式 的 for 循环 : u, = (X) 不 能 
完全 或 部 分 消除 ， 因 为 没有 剩余 的 TP 可 以 加 入 。 因 此 ， 当 for 循环 终止 时 ， 我 们 有 
job, = |join( Y, XY), join(Z, XZ) | FIQ = 1X, X, X), Æ while 循环 的 第 二 次 迭代 中 ， 我 
ITKA job, = (X, X, X1 。 因 为 在 这 个 连接 之 后 ，0 变 成 空 ， 所 以 退出 while 循环 。 最 
后 ， 从 算法 返回 |job, job, | 。 

在 本 章 参 考 文献 [HUSAlla] F, 我们 已 经 证 明 ， 对 于 任何 给 定 的 查询 0， 包 含 K 个 
连接 变量 和 NN 个 三 元 组 模式 ,条件 放 宽 的 最 佳 方 案 算法 (0) 生成 包含 最 多 个 作业 的 作 
业 计 划 ， 其 中 
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0 N20 
J= 1 N=1 或 K=1 (13.4) 
min ( [1.7llog,N |, K) N, K>1 
13.5.5 通过 汇总 统计 分 析 突 破 限 制 


我 们 经 常 遇 到 需要 为 多 个 连接 选项 选择 连接 的 情况 。 当 两 个 查询 方案 ( 即 ， 连 接 排 
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FE) 都 需要 最 少数 量 的 作业 时 ， 可 能 会 发 生 这 些 选 择 。 例 如 ，Listing6 所 示 的 查询 提出 
了 这 种 情况 。 
Listing 6. Query Having Tie Situation 

?X rdf:type ub:FullProfessor. 
?X ub:advisorOf ?Y. 

?Y rdf:type ub:ResearchAssistant. 
查询 中 的 第 二 个 三 元 组 模式 使 得 我 们 不 可 能 仅 使 用 一 个 作业 回答 和 解决 查询 。 只 有 
两 个 可 能 的 方案 : 可 以 先 将 XX 上 的 前 两 个 三 元 组 模式 进行 连接 ， 然 后 将 其 输出 与 Y 上 
的 最 后 一 个 三 元 组 模式 相连 接 ; 或 者 ， 我 们 可 以 先 将 了 上 最 后 两 个 模式 进行 连接 ， 然 后 
将 其 输出 与 X 上 的 第 一 个 模式 相连 接 。 在 这 种 情况 下 ， 我 们 使 用 一 对 谓词 的 连接 汇总 统 
计 信 息 而 不 是 随机 选择 第 一 个 作业 的 连接 变量 。 我 们 为 第 一 个 作业 选择 连接 ， 这 更 有 选 
择 性 地 突破 限制 。 我 们 使 用 的 连接 汇总 统计 信息 在 本 章 参 考 文献 [STOC08] 中 有 描述 。 


13.5.6 Map/Reduce 连接 执行 


在 本 节 中 ， 我 们 将 讨论 如 何 使 用 Hadoop 的 Map/Reduce 框架 来 实现 回应 SPARQL Æ 
询 所 需 的 连接 。 算法 1 决定 了 回应 查询 所 需 的 作业 数 。 它 返回 一 组 有 序 的 作业 集 。 每 个 
作业 都 有 相关 的 输入 信息 。Map/Reduce 框架 的 作业 处 理 器 组 件 按照 它们 在 有 序 集中 显 
示 的 顺序 运行 作业 。 一 个 作业 的 输出 文件 是 下 一 个 作业 的 输入 文件 。 最 后 一 个 作业 的 输 
出 文件 带 有 回应 查询 的 答案 。 

Listing 7. LUBM Query 2 
SELECT ?X, ?Y, ?Z WHERE { 

?X rdf:type ub:GraduateStudent. 

?Y rdf:type ub:University. 

22 rdf:type ub:Department. 

?X ub:memberOf ?2. 

?Z ub:subOrganizationOf ?Y. 

?X ub:undergraduateDegreeFrom ?Y} 

Listing 7 显示 了 LUBM Query 2， 我 们 将 使 用 它 来 说 明 使 用 map 和 reduce 方法 进 和 
接 的 方式 。 这 个 查询 在 变量 X、7 和 2 上 有 6 个 三 元 组 模式 和 9 个 连接 。 

我 们 的 输入 选择 算法 选择 文件 type_GraduateStudent 、type_University 、type_Depart- 
ment, HARIZ memberOf 的 所 有 文件 、 具 有 前 绥 subOrganizationOf 的 所 有 文件 和 具有 前 
2% under GraduateDegree From 的 所 有 文件 作为 输入 ， 输 入 到 需要 回答 查询 的 作业 中 。 

查询 方案 有 两 个 作业 。 在 job, "P, 第 2、5 和 7 行 的 三 个 模式 连接 在 X 上 ,第 3 和 6 
行 的 三 元 组 模式 连接 在 上 Y 上 。 在 job rP, 284 行 的 三 元 组 模式 与 关于 2 的 前 两 个 连接 的 
输出 相连 接 ， 并 且 job, 的 连接 输出 要 连接 到 了 上 。 

job, 的 输入 文件 是 type_GraduateStudent type, University, 、 具 有 前 缀 memberOf AY xc 
IF, BARTZ subOrganizationOf 的 文件 ， 以 及 所 有 带 有 前 组 的 文件 他 们 都 在 under Gradu- 
ateDegreeFrom 在 映射 阶段 ， 我 们 首先 对 输入 值 进行 标记 ， 实 际 上 是 输入 文件 的 一 行 。 
然后 ， 我 们 检查 输入 文件 名 ， 如 果 输 入 是 来 自 type_GraduateStudent ， 我 们 输出 一 个 键 值 
对 ， 其 主体 URI 前 绥 为 X#， 键 和 标识 字符 串 GS# 作 为 值 。 该 值 用 作 标 记 ， 表 示 该 键 的 
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类 型 为 GraduateStudent。 主 体 URI 是 令 牌 分 发 器 返回 的 第 一 个 令 牌 。 类 似 地 ， 对 于 来 自 
文件 type, University 的 输入 ,输出 具有 以 Y# 为 前 级 的 主体 URI 的 键 值 对 ， 键 和 标志 串 U 
# 作 为 其 值 。 如 果 来 自任 何 文 件 的 输入 具有 前 级 memberOf， 则 我 们 通过 令 牌 分 发 器 从 输 
入 行 中 检索 主体 和 客体 ， 并 输出 一 个 键 值 对 ， 其 主体 URI 以 X# 为 前 级 ， 键 和 以 MO# 为 
前 级 的 客体 作为 其 值 。 对 于 具有 前 级 subOrganizationOf 的 文件 的 输入 ， 我 们 输出 键 值 
对 ， 使 客体 以 Y# 为 前 级 ， 键 和 以 SO0# 为 前 级 的 主体 作为 其 值 。 对 于 具有 under Graduate 
DegreeFrom 前 绥 的 文件 的 输入 ， 我 们 输出 键 值 对 ， 使 主体 URI 以 X# 为 前 级 ， 键 和 以 
UDF# 为 前 级 客体 作为 其 值 。 因 此 ， 基 于 正在 进行 的 连接 ， 为 主体 或 客体 做 好 了 映射 输 
出 键 。 这 就 是 为 什么 对 于 来 自 带 有 前 级 subOrganizationOf 的 文件 的 三 元 组 ， 用 客体 作为 
键 的 原因 。 显 然 ， 连 接 型 变量 了 是 第 6 行 中 三 元 组 模式 中 的 客体 。 对 于 所 有 其 他 输入 ， 
由 于 连接 变量 X 和 了 是 第 2、3、5 和 7 行 中 三 元 组 模式 中 的 主体 ， 主 体 就 被 指定 为 键 。 

在 “规约 阶段 ”中 ，Hadoop 对 单个 键 的 所 有 值 进 行 分 组 ， 并 为 每 个 键 提 供 关 键 字 ， 
为 值 的 集合 提供 迭代 颖 。 通 过 考察 前 级 ， 我 们 可 以 立即 知道 它 是 否 是 或 了 的 值 。 在 
任何 一 种 情况 下 ， 我 们 使 用 相同 的 键 输出 一 个 键 值 对 ， 并 将 所 有 值 连接 起 来 ， 使 其 成 为 
一 个 字符 串 值 。 因 此 ， 在 这 个 规约 阶段 之 后 , 和 上 的 连接 完成 , 了 的 连接 部 分 完成 。 

job, 的 输入 文件 是 type. Department 文件 和 job, 输出 文件 (也 就 是 job . out 文件 ) 。 
就 像 job, 的 映射 阶段 ， 在 job, 的 映射 阶段 ， 我 们 也 标记 输入 值 ， 这 实际 上 是 输入 文件 的 
一 行 。 dn, 我 们 检查 输入 文件 名 ， 如 果 输 入 来 自 type_Department, 则 我 们 将 输出 一 个 
键 值 对 ， 其 主体 URI 以 Z# 前 级 ， 键 和 标志 字符 串 D # 作为 值 。 如 果 输 入 来 自 job,. out, 
RERAMA Z# 的 值 。 我 们 将 该 值 作 为 输出 键 ， 并 将 其 余 值 串 连 成 一 个 字符 串 ， 并 
使 其 成 为 输出 值 。 基 本 上 ， 我 们 将 Z# 值 作为 键 连接 到 Z 上 。 

在 规约 阶段 ， 我 们 知道 键 就 是 Z 的 值 。 值 集合 有 两 种 类 型 的 字符 串 。 AE X W, 
它们 是 研究 生 的 URI， 以 及 他 们 获得 本 科学 位 的 Y 值 。 Z 值 ， 即 关键 字 ， 可 能 是 也 可 能 
不 是 了 值 的 子 组 织 。 其 他 类 型 的 字符 串 只 有 Y 值 是 大 学 ，Z 值 是 子 组 织 。 我 们 对 值 集合 
进行 迭代 ， 然 后 在 了 值 上 加 入 两 种 类 型 的 元 组 。 从 连接 输出 ， 我 们 找到 具有 X、 了 和 2 
值 的 结果 元 组 。 


13.6 结果 


在 介绍 我 们 的 评估 结果 之 前 ， 首 先 介绍 我 们 实验 的 基准 数据 集 ， 然 后 是 为 了 比较 而 
进行 的 备 选 存 储 库 评 估 ， 以 及 详细 的 实验 设置 。 


13.6.1 数据 集 、 框 架 和 实验 配置 


13.6.1.1 数据 集 
在 我 们 使 用 SPARQL 查询 处 理 的 实验 中 ， 使 用 两 个 合成 数据 集 : LUBM ( 见 本 章 参 考 
文献 【GU005]) 和 SP2B ( 见 本 章 参 考 文献 [SCHMO9 ]) 。LUBM 数据 集 通 过 使 用 本 体 论 
( 见 本 章 参考 文献 [LEHI] ) 生成 关于 大 学 的 数据 。 它 有 14 个 标准 查询 。 一 些 查询 需要 推 
理 获 得 答案 。LUBM 数据 集 非 常 适用 于 推理 和 可 扩展 性 测试 。 对 于 所 有 LUBM 数据 集 ， 我 
们 使 用 默认 的 基础 数据 。SP2B 数据 集 适用 于 具有 复杂 查询 和 数据 访问 模式 的 可 扩展 性 测 
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ik, EA 16 个 查询 ， 其 中 大 多 数 具 有 复杂 的 结构 。 
13.6.1.2 基准 框架 

将 我 们 的 框架 与 RDF -3X ( 见 本 章 参考 文献 [NEUM08 ] ) Jena ( 见 本 章 参考 文献 
[JENA]) 和 BigOWLIM ( 见 本 章 参考 文献 [ONTO]) 进行 比较 如 下 。RDF -3X 被 认为 
是 具有 永久 存储 的 最 快 的 语义 Web 框架 。Jena 是 语义 Web 数据 的 开源 框架 。 它 具有 可 用 
于 存储 和 检索 RDF 数据 的 一 些 模 型 。 我 们 选择 了 Jena 的 内 存 和 SDB 模型 来 比较 我 们 的 
框架 。 顾名思义 ， 内 存 模 型 将 数据 存储 在 主 存储 器 中 ， 并 且 不 保留 数据 。SDB 模型 是 一 
种 持久 的 模型 ， 可 以 使 用 许多 现成 的 数据 库 管理 系统 。 我 们 在 实验 中 使 用 MySQL 数据 
库 作为 SDB 的 后 端 。 BigOWLIM 是 一 个 专 有 的 框架 ， 是 语义 Web 数据 的 最 先进 的 显著 快 
速 框架 ， 它 可 以 作为 持久 的 和 非 分 散 的 存储 。 所 有 这 些 框架 都 运行 在 单机 配置 中 。 
13.6.1.3 实验 配置 

硬件 : 我 们 有 一 个 用 于 框架 的 10 节点 的 Hadoop 集群 。 每 个 节点 均 具有 以 下 配置 : 
Pentium IV 2. 80GHz 处 理 器 、4GB 主 内 存 和 640GB 磁盘 空间 。 我 们 在 具有 2. 80GHz 四 核 
处 理 器 、8GB 主 内 存 和 1 TB 磁盘 空间 的 强大 单机 上 运行 Jena, RDF -3X 和 BigOWLIM 
框架 。 

软件 : 我 们 使 用 Hadoop - 0. 20. 1 作为 框架 。 将 我 们 的 框架 与 Jena -2.5.7 进行 了 比 
$E, Jena -2.5.7 使 用 MySQL 14. 12 作为 其 SDB 模型， 我们 使 用 BigOWLIM 版 本 3. 2. 6。 
对 于 RDF -3X， 我 们 使 用 版 本 0.3.5 的 源 代码 。 


13.6.2 评估 


针对 我 们 目前 的 框架 、RDF -3X, Jena 内 存 和 SDB 模型 以 及 BigOWLIM， 我 们 进行 了 
它们 之 间 的 性 能 比较 ， 更 多 细节 见 本 章 参 考 文献 [HUSAlla], 我 们 使 用 三 个 LUBM 数据 
集 : 10000, 20000 和 30000， 分 别 有 11 亿 、22 亿 和 33 亿 个 三 元 组 。 对 于 RDF -3X， 为 了 
加 载 数据 ， 初 始 种 群 时 间 分 别 为 6655 1756 和 3353 分 钟 。 这 表明 RDF - 3X Jn t] [8] 5548 
数 增长 。LUBM (30000) 有 三 倍 于 LUBM (10000) 的 三 元 组 ， 加 载 时 间 则 需要 五 倍 以 上 。 

为 了 进行 评估 ， 在 本 工作 中 我 们 选择 了 LUBM 查询 1、2、4、9、12 和 13 进行 汇 
报 。 这 些 查询 提供 了 一 个 很 好 的 混合 ,包括 简 单 和 复杂 的 结构 ， 推 理 和 多 种 类 型 的 连 
接 。 他 们 是 基准 测试 中 其 他 查询 的 代表 ， 因 此 这 里 仅 报 告 这 些 涵盖 了 遗漏 的 查询 中 含有 
的 所 有 类 型 的 变 体 ， 也 节省 了 空间 。 查 询 1 是 一 个 简单 的 选择 性 查询 。 针对 这 个 查询 ， 
RDF - 3X 比 HadoopRDF 快 得 多 。RDF - 3X 使 用 6 个 指标 ( 见 本 章 参 考 文献 
[ NEUMO8]) )， 这 6 个 指标 实际 上 构成 了 数据 集 。 索 引 为 RDF -3X 提供 了 一 种 非常 快速 
的 方法 来 查找 三 元 组 ， 类 似 于 哈 希 表 。 因 此 ，RDF -3X 有 效 地 回应 了 高 度 选择 性 的 查 
询 。 查 询 2 是 具有 复杂 结构 、 低 选择 性 和 无 约束 客体 的 查询 ， 结 果 集 相当 大 。 对 于 该 查 
询 ， 对 于 所 有 三 种 数据 集 的 大 小 ，HadoopRDF 的 性 能 优 于 RDF - 3X。 当 数据 集 大 小 为 
33 亿 三 元 组 时 ，RDF -3X 根本 无 法 回应 查询 。RDF -3X 返回 内 存 分 段 错误 消息 ， 不 产 
生 任 何 查询 结果 。 查 询 4 也 是 一 种 高 度 选择 性 的 查询 ， 也 就 是 说 ， 由 于 第 二 个 三 元 组 模 
式 中 的 绑 定 客体 ， 结 果 集 很 小 ， 但 是 它 需 要 通过 推论 来 回应 它 。 第 一 个 三 元 组 模式 使 用 
类 Person ， 它 是 许多 类 的 超 类 。LUBM 数据 集中 的 资源 不 是 Person 类 型 ， 而 是 它 的 子 类 
型 ， 有 很 多 资源 。RDF -3X 不 支持 推理 ， 所 以 我 们 不 得 不 将 查询 转换 为 具有 一 些 联合 操 
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作 的 等 效 查询 。 对 于 此 查询 ，RDF -3X 胜 过 HadoopRDF。 查 询 9 在 结构 上 与 查询 2 类 
似 ， 但 是 它 需要 大 量 的 推理 进行 判断 。 此 查询 的 前 三 个 三 元 组 模式 使 用 在 数据 集中 未 明 
确实 例 化 的 类 。 然 而 ， 数 据 集中 包括 相应 子 类 的 许多 实例 。 它 也 是 需要 最 大 数据 集 连 接 
的 查询 ， 而 且 能 从 我 们 评估 的 查询 中 返回 最 大 的 结果 集 。 对 于 11 亿 三 元 组 的 数据 集 ， 
RDF -3X 的 速度 比 HadoopRDF 快 ， 但 是 对 于 其 他 两 个 数据 集 ， 它 完全 不 能 回应 查询 。 
查询 12 类 似 于 查询 4， 因为 它 是 选择 性 的 并 且 以 一 个 三 元 组 模式 进行 推理 。 针 对 此 查 
if], RDF -3X 完 败 HadoopRDF。 查 询 13 只 有 两 个 三 元 组 模式 。 它 们 都 涉及 推理 。 第 二 
个 三 元 组 模式 中 有 一 个 限定 的 主体 。 它 返回 第 二 大 结果 集 。 对 所 有 数据 集 的 该 查询 ， 
HadoopRDF 都 胜 过 RDF -3X, RDF -3X 的 性 能 很 慢 ， 因 为 第 一 个 三 元 组 模式 具有 非常 
低 的 选择 性 ， 并 且 需 要 较 低 的 选择 性 连接 通过 反 向 链 来 执行 推理 。 

这 些 结果 使 我 们 得 出 了 一 些 简 单 的 结论 。RDF -3X 对 具有 高 选择 性 和 绑 定 客体 的 
查询 ， 具 有 最 佳 性 能 。 然 而 ， 对 于 具有 未 绑 定 客体 的 查询 、 低 选择 性 或 大 型 数据 集 连 
接 ，HadoopRDF 的 性 能 优 于 RDF -3X, RDF -3X 无 法 对 33 亿 个 三 元 组 数据 集 执行 具有 
未 绑 定 对 象 的 两 个 查询 (查询 2 和 9) 。 这 表明 HadoopRDF HE RDF -3X 更 具 可 扩展 性 ， 
可 以 更 有 效 地 处 理 低 选择 性 查询 。 

我 们 还 将 我 们 的 成 果 与 Jena 内 存 模型 、SDB 模型 以 及 BigOWLIM 进行 了 比较 。 由 于 空 
间 和 时 间 限 制 ， 我 们 仅 对 LUBM 数据 集中 的 LUBM 查询 2 和 9 执行 了 这 些 测试 。 我 们 选择 
了 这 些 查询 ， 因 为 它们 具有 复杂 的 结构 并 需要 推断 。 需 要 注意 的 是 ，BigOWLIM 需要 7 GB 
的 Java 堆 空 间 来 成 功 地 加 载 10 亿 个 三 元 组 数据 集 。 这 里 只 对 最 大 的 三 个 数据 集运 行 Big- 
OWLIM， 因 为 我 们 对 大 数据 集 的 性 能 更 感 兴趣 。 对 于 每 一 组 ， 我 们 分 别 获得 了 Jena 内 存 
模型 Jena SDB 模型 Hadoop 实现 和 BigOWLIM 的 结果 。 有 时 ， 查 询 无 法 完成 或 内 存 不 
足 。 在 大 多 数 情况 下 ， 我 们 的 做 法 是 最 快 的 。 对 于 查询 2，Jena 内 存 模型 和 Jena SDB 模型 
比 我 们 的 方法 更 快 ， 结 果 分 别 为 3.9s 和 0.4s。 然 而 ， 随 着 数据 集 越 来 越 大 ，Jena 内 存 模 
型 的 内 存 空间 已 经 不 足 。 我 们 的 实施 方法 要 比 Jena SDB 大 型 数据 集 模型 快 得 多 。 例 如 ， 
对 于 1.1 亿 的 三 元 组 数据 ， 我 们 的 方法 花费 了 143. 5s, mi Jena SDB 模型 则 为 约 5000s。 我 
们 发 现 ，Jena SDB 模型 无 法 完成 对 查询 9 的 回应 。Jena 内 存 模型 在 小 数据 集中 运行 良好 ， 
但 随 着 数据 集 的 增长 ， 反 而 变 得 比 我 们 的 方法 更 慢 ， 并 最 终 耗 尽 内 存 。 

对 于 查询 2, 在 1.1 亿 和 5.5 亿 的 数据 集 上 ，BigOWLIM 比 我 们 的 慢 。 对 于 5.5 亿 个 
数据 集 ， 它 花费 了 22693. 4s， 与 其 他 时 间 相 比 是 非常 高 的 。 对 于 10 亿 个 三 元 组 数据 集 ， 
BigOWLIM 更 快 。 应 该 注意 的 是 ,我 们 的 框架 没有 任何 索引 或 三 元 组 缓存 ， 而 Big- 
OWLIM 利用 索引 ， 它 在 启动 时 加 载 到 主 内 存 中 。 另 外 ， 它 也 可 以 将 三 元 组 预 取 到 主 存 
储 器 中 。 对 于 查询 9， 我 们 的 实现 在 所 有 实验 中 都 比 BigOWLIM 快 。 

应 该 注意 , RDF -3X 查询 和 HadoopRDF 查询 使 用 冷 运 行进 行 测试 。 我 们 这 样 做 的 
目的 是 在 执行 前 清除 主 内 存 和 文件 系统 缓存 。 但 是 ， 对 于 BigWLIM， 我 们 被 迫 执行 热 运 
行 。 这 是 因为 将 数据 库 加 载 到 BigWLIM 需要 大 量 时 间 。 因 此 ， 我 们 将 一 直 很 容易 地 在 
冷 运行 中 胜 过 Big0OWLIM。 所 以 ， 我 们 实际 测试 了 BigOWLIM 的 热 运 行 ， 而 针对 Ha- 
doopRDF 进行 冷 运 行 。 这 给 BigOWLIM 带 来 了 巨大 的 优势 ， 对 于 大 型 数据 集 ，Ha- 
doopRDF 仍然 产生 了 更 好 的 结果 。 这 表明 HadoopRDF HE BigOWLIM 更 具 可 扩展 性 ， 并 且 
可 以 为 大 型 数据 集 提 供 更 有 效 的 查询 。 
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我 们 进行 的 最 终 测 试 是 深入 的 可 扩展 性 测试 。 为 此 ， 我 们 对 8 个 不 同 的 数据 集 大 小 
进行 了 重复 的 相同 查询 ， 一 直达 到 66 亿 。 

在 我 们 的 实验 中 ， 发 现 查询 1 很 简单 ， 只 需要 一 个 连接 ; 因此 ， 在 所 有 查询 中 花费 的 
时 间 最 少 。 查 询 2 是 具有 最 大 数量 的 三 元 组 模式 的 两 个 查询 之 一 。 由 于 我 们 的 存储 架构 ， 
即使 它 有 三 倍 多 的 三 元 组 模式 ， 但 是 也 没有 占用 三 倍 于 查询 1 的 应 答 时 间 。 查 询 4 比 查 询 
2 少 一 个 三 元 组 模式 ， 但 它 需 要 推理 。 当 我 们 确定 推理 的 关系 时 ， 需 要 推理 的 查询 在 我 们 
的 框架 中 需要 更 长 的 时 间 。 查 询 9 和 12 也 要 求 推理 。 细 节 在 本 章 参 考 文献 [HUSA11a ] 
中 给 出 。 

随 着 数据 集 规 模 的 增长 ， 回 应 查询 的 时 间 的 增加 不 会 成 比例 增长 。 时 间 的 增加 总 是 
会 少 一 些 。 例 如 ，10000 个 大 学 是 1000 个 大 学 的 数据 集 三 元 组 的 10 倍 ， 但 对 于 查询 1 ， 
时 间 只 增加 了 3.76 倍 ， 查 询 次 数 增加 了 7. 49 倍 。 后 者 是 时 间 上 的 最 大 增长 ， 但 仍然 小 
于 数据 集 大 小 的 增加 。 由 于 空间 限制 ， 我 们 不 在 这 里 报告 PS 模式 的 查询 运行 时 间 。 实 
际 上 ， 我 们 发 现 PS 模式 比 POS 架构 慢 得 多 。 


13.7 总 结 和 展望 


我 们 提出 了 一 个 能 够 处 理 大 量 RDF 数据 的 框架 。 既 然 我 们 的 框架 是 基于 Hadoop 
的 ， 就 意味 着 它 是 一 个 分 布 式 和 高 度 容 错 的 系统 ， 它 自动 继承 了 这 两 个 属性 。 该 框架 具 
有 高 度 可 扩展 性 。 为 了 增加 系统 的 容量 ， 需 要 做 的 所 有 工作 就 是 向 Hadoop 集群 添加 新 
的 节点 。 我 们 还 提出 了 一 种 存储 RDF 数据 的 模式 ， 一 种 限定 最 差 情况 下 的 确定 查询 处 
理 方案 的 算法 ， 为 了 响应 SPARQL 查询 ， 算 法 中 使 用 了 简化 的 成 本 模型 。 实 验 表明 我 们 
的 系统 具有 高 度 可 扩展 性 。 如 果 我 们 增加 数据 量 ， 则 引入 回应 查询 的 延迟 不 会 按 比 例 增 
加 。 结 果 说 明 ， 对 于 非常 大 的 数据 集 (超过 10 亿 个 三 元 组 )， 如 果 查 询 包括 低 选择 性 
连接 或 重要 推断 ，HadoopRDF 是 更 优选 和 更 有 效 的 。 如 果 查 询 包 括 产 生 高 选择 性 的 约 
东 客 体 ， 其 他 解决 方案 可 能 会 更 有 效 。 

未 来 ， 我 们 将 在 多 个 方面 拓展 工作 。 首 先 ， 我 们 将 研究 更 复杂 的 查询 模型 。 我 们 将 
缓存 最 常见 查询 的 统计 信息 ， 并 使 用 动态 规划 来 利用 统计 信息 。 其 次 ， 我 们 将 评估 用 户 
指定 的 Hadoop 作业 唯一 参数 的 规约 器 数量 对 查询 运行 时 间 的 影响 。 第 三 ， 我 们 将 研究 
索引 条 件 和 二 进 制 格式 的 进一步 使 用 。 最 后 ， 我 们 将 处 理 更 复杂 的 SPARQL 模式 ， 例 
如 ， 具 有 可 选 块 的 查询 。 
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14.1 概述 


本 章 介 绍 我 们 正在 开发 的 基于 云 的 系统 SNODSOC (Stream - based Novel class Detec- 
tion for Social network analysis ) ， 基于 流 的 新 颖 的 社会 网 络 分 析 检 测 ， 用 于 检测 社交 博客 
中 不 断 发 展 的 模式 和 趋势 。SNODSOC 扩展 了 强大 的 数据 挖掘 系统 ， 称 为 SNOD (基于 流 
的 新 颖 类 检测 Stream — based Novel class Detection, SNOD) ， 用 于 检测 博客 类 。 我 们 还 描 
XR f SNODSOC + + ， 它 是 用 于 检测 多 个 小 类 的 SNODSOC 的 扩展 版 本 。 

社交 媒体 如 Facebook, Twitter 和 YouTube 已 成 为 群体 中 最 流行 的 沟通 方式 ， 可 以 彼 
此 分 享 信息 。 社 交 媒 体 传 播 在 许多 方面 与 传统 的 数据 传播 不 同 。 例 如 ， 通 过 社交 媒体 通 
信 ， 可 以 在 很 短 的 时 间 内 交换 多 个 消息 。 此 外 ,通信 消息 (例如 ,博客 和 推 文 ) 经 常 
缩写 ， 难 以 理解 。 为 了 理解 各 种 社交 媒体 环境 下 群体 的 动机 、 情 感 和 行为 ， 其 中 有 些 是 
恶意 的 消息 ， 我 们 需要 使 用 工具 ， 来 理解 那些 通常 表示 为 图 形 的 社交 网 络 通信 消息 。 为 
了 解决 这 个 需要 ， 我 们 设计 了 一 个 用 于 分 析 基 于 流 的 社交 媒体 通信 数据 的 语义 框架 。 

我 们 开发 了 一 种 强大 的 机 器 学 习 工 具 ， 称 为 SNOD。SNOD 是 一 种 独特 的 数据 流 分 
类 技术 ， 可 以 对 数据 流 中 的 新 类 进行 分 类 和 检测 。SNOD 已 经 成 功 应 用 于 NASA. 的 航空 
安全 报告 系统 (Aviation Safety Reporting System, ASRS) 的 数据 集 。SNOD 也 有 许多 潜在 
的 应 用 ， 如 分 析 社 交 网 络 、 信 用 卡 欺诈 检测 、 博 客 和 推 文 检测 以 及 文本 流 分 类 。 我 们 利 
用 SNOD 开发 了 一 个 名 为 SNODSOC 的 复杂 社交 网 络 分 析 系 统 。 要 挖掘 博客 和 Twitter 1H 
息 为 数据 流 的 分 类 问题 建 模 ， 需 要 SNODSOC 分 析 社 交 网 络 数据 ， 如 博客 和 Twitter TH 
息 。 我 们 正在 使 用 云 计算 框架 来 实施 SNODSOC。 由 于 需要 处理 大 量 社交 媒体 数据 ， 因 
此 需要 基于 云 的 实施 来 保证 可 扩展 性 和 良好 的 性 能 。 

除了 SNODSOC， 我 们 还 开发 了 位 置 提取 (LOCEXT) 、 概 念 /实体 提取 (ENTEXT) 
和 本 体 构建 (ONTCON) 的 工具 。 这 些 工具 正在 被 整合 ， 以 开发 用 于 分 析 社 交 媒 体 通 信 
数据 的 语义 框架 。 集 成 系统 称 为 SNODSOC + +. Al 14.1 说 明了 我 们 的 框架 。 

本 章 结 构 如 下 : 14.2 节 讨 论 用 于 开发 SNODSOC, LOCEXT, ENTEXT 和 ONTCON 
可 扩展 解决 方案 的 基础 技术 ， 这些 技 术 包 括 SNOD， 以 及 用 于 位 置 提取 、 实 体 提 取 、 本 
体 构 建 以 及 云 查询 处 理 的 基本 工具 ;SNODSOC 将 在 14.3 节 中 讨论 ， SNODSOC + + 将 
在 14.4 节 中 讨论 ; 14.5 节 讨 论 基 于 云 的 社交 网 络 分 析 (Social Network Analysis, SNA) ; 
14. 6 节 讨 论 相关 工作 ; 14. 7 节 得 出 结论 。 图 14. 2 说 明了 本 章 的 内 容 。 











































































































































































































$k 云端 社交 网 络 《 


LOCEXT ENTEXT 
SNODSOC ONTCON 


图 14.1 框架 (内容 来 自 Abrol, S. , Khan, L., Khadilkar, V., Cadenhead, T. Design and implementation 
of SNODSOC; Novel class detection for social network analysis, Proceedings of the 2012 International 
Conference on Intelligence and Security Informatics, p.215 -220. © (2012) IEEE. 已 获得 授权 ) 
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图 14.2 云端 社交 网 络 〈 内 容 来 自 Abrol，S. Khan, L , Khadilkar, V., Cadenhead, T. Design and 
implementation of SNODSOC; Novel class detection for social network analysis, Proceedings of the 2012 
International Conference on Intelligence and Security Informatics, p.215 -220. (C) (2012) IEEE. 已 获得 授权 ) 





14.2 SNODSOC 和 SNODSOC + + 的 基础 技术 





在 本 节 中 ， 主 要 说 明 我 们 开发 的 几 种 工具 ， 它 们 构成 了 图 14. 1 所 示 组 件 的 基础 。 
这 些 组 件 在 14.3 节 中 讨论 。 


14.2.1 SNOD 


SNOD 使 用 我 们 的 数据 流 学 习 算法 来 检测 新 的 类 ( 见 本 章 参 考 文献 [ MASU 1a] , 
[MASUIIb] 、[ MASU12] 、[ MASU10] ) 。 数 据 流 分 类 中 的 三 个 主要 挑战 是 无 限 流 长 度 、 





























概念 漂移 和 概念 演化 。SNOD 通过 应 用 混合 批量 增加 过 程 ， 来 解决 无 限 流 长 度 和 概念 漂 
移 问 题 ， 该 过 程 执行 方式 如 下 : 数据 流 被 分 成 等 大 小 的 块 ， 从 每 个 块 训练 出 对 应 的 一 个 
分 类 模型 。 





使 用 工 个 这 样 的 模型 的 集合 来 对 未 标记 的 数据 进行 分 类 。 当 从 一 个 数据 块 中 训练 一 
个 新 的 模型 时 ， 它 将 蔡 换 该 集合 中 一 个 现 有 的 模型 。 以 这 种 方式 ， 集 合 将 保持 最 新 状 
态 。 通 过 维持 固定 大 小 的 集合 来 解决 无 限 流 长 度 问 题 ， 并 且 通 过 保持 集合 的 实时 性 来 解 
决 概念 漂移 问题 。SNOD 通过 自动 检测 数据 流 中 的 新 类 来 解决 概念 演化 问题 。 为 了 检测 
一 个 新 类 ， 它 首先 在 训练 数据 周围 建立 一 个 决策 边界 。 在 未 标记 数据 的 分 类 过 程 中 ， 首 
先 识别 出 决策 边界 外 的 测试 数据 点 。 这 样 的 数据 点 称 为 过 滤 异 常 值 (了 异常 值 ) ， 它 们 
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表示 与 训练 数据 分 离 的 数据 点 。 如 果 发 现 足够 多 数量 的 异常 值 在 它们 之 间 表 现 出 强烈 
的 凝聚 力 〈 即 它们 靠近 在 一 起 ) ， 则 下 异常 值 被 分 类 为 新 的 类 别 实例 。 
图 14. 3 总 结 了 本 章 参考 文献 [ MASUl1a] 提出 的 SNOD 算法 。 分 类 模型 是 从 最 后 
一 个 标记 的 数据 块 中 进行 训练 的 。 此 模型 用 于 更 新 现 有 和 集合 。 流 中 的 最 新 数据 点 则 集成 
测试 。 如 果 发 现 它 是 一 个 异常 值 ， 它 被 暂时 存储 在 缓冲 区 内 。 否 则 ， 它 将 立即 使 用 当前 
的 集合 分 类 。 临 时 缓冲 区 被 定期 处 理 ， 以 检测 缓冲 区 中 的 实例 是 否 属于 新 类 。 
数据 流 
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图 14.3 SNOD 算法 


14.2.2 位 置 提 取 


这 里 将 讨论 我 们 以 前 在 位 置 提取 和 社交 网 络 分 析 方 面 的 一 些 工作 。 我 们 的 第 一 个 相关 
工作 是 Mapt ( 见 本 章 参 考 文献 [ ABROO9 1), 使 用 高 效 的 算法 和 启发 式 算法 来 识别 
Craigslist 广告 中 存在 的 非 结构 化 文本 中 的 正确 位 置 ， 并 消除 上 疏 义 。 与 地 理解 析 (确定 在 非 
结构 化 内 容 中 出 现 的 文本 单词 和 短语 的 地 理 坐 标 ) 相关 的 主要 挑战 是 解决 歧义 问题 。 这 里 
存在 两 种 歧义 : 地 理 / 非 地 理 和 地 理 / 地 理 模棱两可 性 。 地 理 / 非 地 理 卜 义 是 具有 另 一 个 非 
地 理 意 义 地 名 的 情况 ， 例 如 ， 巴 黎 可 能 是 法 国 的 首府 ， 或 者 可 能 指 的 是 社会 名 流 场所 巴黎 
和 希尔顿。 地 理 位 置 / 地 理 模 棱 两 可 性 ， 出 现在 具有 相同 名 称 但 不 同 地 理 位置 的 两 者 之 间 。 
例如 ， 巴 黎 是 法 国 的 首府 ， 也 是 得 克 萨 斯 州 的 一 个 城市 。 史 密斯 等 人 在 报告 中 说 ， 在 其 语 
料 库 中 发 生 的 所 有 名 称 中 有 92% 是 不 明确 的 。Maptt 通过 使 用 九 点 启发 式 算法 来 解决 这 种 
模棱两可 性 ， 能 以 85% 的 准确 度 识别 定位 到 街道 级 别 ， 这 超过 了 以 前 的 相关 工作 。 我 们 开 
发 了 一 个 功能 完整 的 原型 ， 并 对 从 Craigslist 网 站 收集 的 实际 数据 集 进 行 了 测试 。 

在 我 们 的 第 二 个 相关 工作 ( 见 本 章 参考 文献 [ CHAN11]) 中 ,使 用 概率 框架 
(PDF) 来 佑 计 每 个 用 户 的 城市 级 Twitter 用 户 的 位 置 。 这 些 概率 基于 Twitter 消息 的 内 
容 ， 主 要 是 借助 Twitter 社交 网 络 中 不 同 用 户 之 间 交 互 产生 的 tweet 回复 消息 。 使 用 tweet 
回复 消息 提供 了 与 用 户 位 置 相关 联 的 词语 ， 从 而 减少 了 该 地 理 名 字 在 空间 分 布 中 的 干 
扰 。 我 们 还 为 每 个 用 户 提供 了 最 可 能 的 若干 城市 名 单 。 我 们 发 现 ， 使 用 类 似 的 PDF, 与 
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以 前 精度 约 为 10% 的 工作 相 比 较 ， 我 们 对 100 英里 以 内 实际 用 户 位 置 的 定位 ， 定 位 时 
间 是 原来 的 22% 。 


14.2.3 实体 /概念 提取 和 集成 


我 们 开发 了 一 种 机 器 学 习 方 法 来 提取 实体 和 关系 。 特 别 是 ， 我 们 对 现 有 机 器 学 习 方 
法 的 两 种 扩展 进行 了 调查 研究 。 
14.2.3.1 语言 扩展 

为 了 抽取 实体 和 关系 ， 需 要 将 其 他 的 语言 知识 来 源 纳 入 到 现 有 的 机 器 学 习 框 架 。 首 
Jc, 我 们 研究 了 信息 是 如 何 从 固定 本 体 派 生 的 (并 且 可 以 与 学 习 分 类 器 集成 以 进行 分 
类 决策 ) 。 我 们 使 用 这 样 的 信息 作为 训练 分 类 器 的 特征 数据 ， 还 直接 使 用 可 用 的 本 体 对 
实体 或 关系 进行 分 类 ， 只 有 本 体 不 存在 所 需 信 息 的 情况 下 才 使 用 学 习 分 类 器 。 
14.2.3.2 语言 以 外 的 扩展 
虽然 监督 机 器 学 习 方 法 减少 了 系统 对 本 体 的 依赖 ， 但 是 基于 学 习 系 统 的 性 能 在 很 大 程 
度 上 取决 于 大 量 标记 数据 的 可 用 性 ， 这 可 能 是 昂贵 的 。 因 此 ， 我 们 开发 了 三 种 语言 以 外 的 
扩展 ， 旨 在 提高 提取 系统 在 有 限 的 标记 数据 方面 的 健壮 性 。 它 们 是 : 将 基于 知识 和 学 习 
的 方法 与 实体 提取 和 关系 提取 相 结合 ; @) 结 合 域 适 应 技术 ; @ 自 动 生成 附加 的 训练 数据 。 
14.2.3.3 实体 整合 

一 旦 实体 和 关系 从 自由 文本 中 提取 出 来 ， 就 必须 将 它们 整合 在 一 起 ， 以 创建 一 个 组 
合 的 语义 表示 。 在 实体 提取 期 间 ， 一 些 被 提取 的 实体 可 能 是 错误 的 或 者 不 相关 的 ， 一 些 
被 提取 的 实体 也 有 可 能 是 相关 的 。 因 此 ， 我 们 将 抛弃 不 相干 的 实体 ， 并 保留 相关 的 实 
体 。 接 下 来 ， 我 们 就 整合 来 自 多 个 文件 的 实体 。 在 不 同文 献 的 多 个 参考 信息 中 ， 实 体 可 
能 指向 现实 生活 中 的 同一 实体 。 我 们 解决 了 以 下 两 个 相关 的 挑战 : 中 消除 由 信息 提取 技 
术 产生 的 文档 中 的 不 相关 实体 ; @ 将 提取 的 实体 合并 到 文档 中 ， 以 便 在 确定 相同 的 实体 
之 间 建 立 “ 相 同 ”的 实体 关系 。 


14.2.4 本 体 构 建 


基于 本 章 参考 文献 [KHANO2] 中 描述 的 工作 ,我们 正在 开发 一 种 用 于 自动 构建 域 
依赖 本 体 的 具有 很 大 潜力 的 新 方法 。 方 法 的 关键 是 开发 展 次 结构 ， 以 及 层次 结构 中 每 个 
节点 中 通用 本 体 的 概念 选择 。 对 于 开发 层次 结构 ， 我 们 修改 了 从 上 到 下 构建 层次 结构 的 
现 有 自 组 织 树 算法 (Self Organizing Tree Algorithm, SOTA) 。 

接 下 来 ， 需 要 为 层次 结构 中 的 每 个 节点 分 配 一 个 概念 。 为 此 ， 我 们 部 署 两 种 策略 ， 
并 采用 自 下 而 上 的 概念 分 配 机 制 。 首 先 ， 对 于 由 一 组 文档 组 成 的 每 个 群集 ， 我 们 基于 修 
改 的 用 于 主题 跟踪 的 Rocchio 算法 分 配 一 个 主题 。 然 而 ， 如 果 有 多 个 概念 是 主题 的 候选 
者 ， 我 们 就 提出 一 种 智能 的 仲裁 方法 。 接 下 来 ， 为 了 把 概念 分 配给 层次 结构 中 的 内 部 节 
点 ， 我 们 使 用 语言 学 本 体 的 WordNet。 内 部 节点 的 派生 概念 也 将 在 WordNet 中 被 识别 。 
从 这 些 已 识别 的 概念 和 它们 的 上 位 词 ， 我 们 就 可 以 确定 一 个 更 通用 的 概念 ， 也 可 以 被 分 
配 为 内 部 节点 〈 见 本 章 参 考 文献 [MCGLIO], 、[ALIP10] ) 的 概念 。 
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14.2.5 云 查询 处 理 


如 第 13 章 所 述 ， 我 们 在 云 上 开发 了 一 个 SPARQL 查询 处 理 系统 。 实 际 上 ， 我 们 已 
经 开发 了 一 个 框架 通过 Hadoop 查询 RDF 数据 存储 ， 使 用 Pellet 推理 器 在 不 同 的 阶段 进 
行 推 理 。 具 体 实现 时 ， 使 用 与 Hadoop 的 Map/Reduce 功能 相 结 合 的 Pellet 库 进 行 实 时 查 
询 推理 。 我 们 的 RDF 查询 处 理由 两 个 主要 步骤 组 成 : 预 处 理 以 及 查询 执行 和 优化 。 
14.2.5.1 预 处 理 

要 对 RDF 数据 执行 SPARQL 查询 ， 就 需要 对 数据 执行 预 处 理 ， 并 将 预 处 理 数 据 存 
fite HDFS 中 。 通 过 编写 一 个 单独 的 Map/Reduce 任务 来 执行 ,将 RDF/XML 数据 转换 
H N -Triples， 同 时 也 是 为 了 前 级 生 成。 我 们 的 存储 策略 是 基于 谓词 分 割 ( 见 本 章 参 考 
文献 [ HUSAIN11])。 
14.2.5.2 查询 执行 和 优化 

我 们 为 Hadoop 开发 了 一 个 SPARQL 查询 执行 和 优化 模块 。 由 于 我 们 的 存储 策略 是 
基于 谓词 拆 分 ， 首 先 我 们 要 检查 查询 中 存在 的 谓词 ， 其 次 我 们 检查 与 谓词 匹配 的 输入 文 
件 的 子 集 ， 最 后 SPARQL 查询 通常 在 其 中 具有 许多 连接 ， 并 且 所 有 这 些 连接 可 能 无 法 在 
单个 Map/ Reduce 作业 中 执行 。 因 此 ， 我 们 已 经 开发 出 一 种 算法 来 决定 每 种 查询 所 需 的 
作业 数量 。 作 为 优化 的 一 部 分 ， 我们 采用 贪 梦 策略 和 成 本 优化 来 减少 查询 处 理 时 间 
( 见 本 章 参考 文献 [ HUSAIN11])。 































































































14.3 SNODSOC 设计 


14.3.1 模块 概述 


互联 网 社交 媒体 服务 ( 例 ， 微 博 和 社交 网 络 ) ， 往 往 由 类 似 Twitter 等 这 样 的 平台 所 
提供 ， 这 些 服 务 都 在 用 户 群 中 大 幅 增 长 。 其 中 ， 微 博 现象 早 在 2000 年 代 中 期 就 被 讨论 
过 ， 我 们 能 看 到 用 户 使 用 这 个 服务 ， 来 谈论 他 们 的 日 常 活 动 ， 并 寻求 或 分 享 信息 。 这 种 
增长 激发 了 人 们 对 使 用 这 些 平台 提供 的 数据 来 提取 各 种 类 型 信息 的 兴趣 。 我 们 设计 了 以 
下 社交 网 络 分 析 工 具 (如 图 14.1 所 示 ) 。 

1) 趋势 分 析 ， 包 括 SNODSOC, 

2) 从 博客 和 推 文中 提取 用 户 的 地 理 位 置 ( LOCEXT) 。 

3) 消息 分 类 和 实体 提取 ( ENTEXT) 。 

4) 本 体 构建 (ONTCON) 。 

这 些 工具 将 构成 SNODSOC + + 框架 ， 可 以 进行 复杂 的 社交 网 络 分 析 。 特 别 是 ， 我 
们 开发 了 一 套 技 术 ， 将 有 助 于 新 兴 趋 势 分 析 、 地 理 位 置 提取 、 消 息 分 类 和 实体 提取 和 本 
体 构 建 。 这 里 所 提 到 的 提取 过 程 将 是 非常 耗 时 的 。 因 此 ， 我 们 正在 利用 云 计 算 解 决 方案 
来 加 快 提取 过 程 。 提 取 的 知识 可 用 于 为 用 户 提 供 个 性 化 服务 ， 如 本 地 新 闻 、 本 地 广告 、 
应 用 共享 等 。Twitter 在 不 同 的 地 理 位 置 拥有 超过 2 亿 个 账户 ， 短 信 或 推 文 可 形成 一 个 
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大 的 数据 集 ， 可 以 分 析 这 些 数 据 去 提取 地 理 信 息 。 
14.3.2 SNODSOC 和 趋势 分 析 
Twitter 不 仅 成 为 社交 网 络 的 主要 形式 ,而 且 也 成 为 一 种 新 的 、 不 断 增长 的 沟通 方 


式 。Twitter 的 用 户 数量 和 Tweet 的 数量 在 继续 增加 。Tweet 能 











事 。 通 常 ， 关 于 自然 灾害 、 犯 罪 或 政治 事件 的 第 一 个 消息 来 源 是 Tweet, 











体 和 社区 组 织 的 沟通 机 制 。Twitter XP EAS 




















Twitter 可 以 为 个 人 提供 

















很 快 反 映 出 突 发 的 新 闻 故 





Twitter 也 是 团 


和 件 和 抗议 团体 产生 了 重大 影响 。 


种 沟通 方式 ， 而 不 依赖 传统 媒体 。 通 过 Twitter 服务 的 这 

















种 新 的 交流 模式 让 流 数 据 挖掘 



































面临 新 的 挑战 。Tweet 在 连续 流 中 流动 。 我 们 的 目标 是 破 


译 和 监控 这 些 推 文中 的 主题 ， 并 检测 何 时 出 现 趋势 。 这 包括 比如 运动 或 时 尚 等 主题 的 一 
NO. BRUM PUR UE, IRL cs fune E eae 
正确 关联 是 一 个 具有 挑战 性 的 难题 。 由 于 输入 的 消息 是 连续 和 大 量 的 ， 








流 式 传输 模式 来 解决 。 

















这 些 挑 战 最 好 由 














我 们 系统 的 核心 是 SNOD 的 分 类 模型 ( 见 图 14.4)。 为 了 构建 这 个 模型 ， 我 们 可 以 








据 来 逐步 更 新 此 模型 。 当 选择 



































使 用 K -NN 方法 或 者 多 标签 文本 分 类 方法 。 将 使 用 从 新 的 Twitter 消息 中 获取 的 特征 数 
新 的 消息 CBI, WESC) 作为 训练 示例 时 ， 





将 对 其 进行 分 


析 并 记录 其 特征 。 该 记录 的 数据 将 被 存储 在 一 个 临时 的 数据 库 中 ， 该 数据 库 将 一 次 保存 








一 批 六 条 消息 的 数据 。 当 一 批 数据 被 处 理 后 ， 


数据 都 将 进行 特征 提取 和 选择 。 
fg), ， 这 些 向 量 被 用 于 使 用 增 遇 














它 将 被 丢弃 ， 再 继续 存储 新 的 批 次 。 每 批 


所 选择 的 特征 将 用 于 计算 特征 向 量 (每 个 消息 有 一 个 向 
量 学 习 技 术 来 更 新 现 有 的 分 类 模型 。 当 系统 中 出 现 未 知 的 可 

















执行 文件 时 ， 首 先 ， 将 监视 和 记录 其 运行 时 间 和 网 络 行为 。 然后 该 数据 将 经 历 类 似 的 特 


征 提取 阶段 ， 但 是 由 于 在 训练 /更 


训练 Tweet 











新 阶段 中 选择 的 相同 特征 被 用 于 构建 特 4 


特征 提取 和 选择 











图 14. 4 分 类 模型 


模型 更 新 





征 向 量 ， 所 以 不 
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需要 特征 选择 。 该 特征 向 量 将 使 用 分 类 模型 进行 分 类 。 根 据 分 类 标准 ， 采 取 相 应 的 措施 。 
14.3.2.1 新 类 检测 

上 述 特征 提取 和 分 类 过 程 是 为 固定 大 小 的 训练 数据 生成 特征 向 量 。 为 了 应 对 日 益 增 
长 的 Tweet， 我 们 必须 将 其 扩展 到 数据 流 框架 。 我 们 的 数据 流 分 类 器 ( 见 本 章 参考 文献 
[MASU1la], [MASU10], [MASU11b], [MASU12]) 可 以 处 理 大 量 的 训练 和 测试 数 
据 ， 也 能 处 理 概念 漂移 、 新 类 和 流 中 的 特征 演进 。 回 想 一 下 ， 我 们 假设 数据 流 被 划分 成 
相等 大 小 的 块 。 该 系统 的 核心 是 M 分 类 器 | 五 o, L, 的 集合 KL。 当 新 的 未 标记 的 可 执 
行文 件 (测试 实例 ) 到 达 时 ， 集 合用 于 对 实例 进行 分 类 。 如 果 测 试 实例 被 识别 为 异常 
值 ， 则 将 其 临时 存储 在 缓冲 区 buf 中 以 供 进一步 检查 。 和 否则 ， 如 果 它 不 是 异常 的 ， 那 么 
它 被 归 类 为 良性 或 恶意 。 和 定期 检查 缓冲 区 ， 看 看 是 否 出 现 了 一 个 新 类 。 如 果 检 测 到 一 个 
新 类 ， 则 属于 新 类 的 实例 被 相应 地 识别 和 标记 。 一 旦 新 的 标签 数据 块 到 达 ， 它 被 用 于 训 
练 分 类 器 L'。 然 后 ， 通 过 根据 最 新 的 标记 数据 块 D, 的 精度 选择 M +1 分 类 器 LU LL} BP 
最 好 的 M 个 分 类 髓 来 更 新 现 有 的 集合 (参见 算法 A), 
新 类 检测 技术 的 核心 概念 是 属于 一 个 共同 类 的 数据 点 应 该 让 它们 彼此 更 接近 
(内 聚 )， 也 应 该 与 属于 其 他 类 (分 离 ) 的 数据 点 相差 更 大 些 。 当 对 新 类 进行 检查 
时 ， 我 们 在 buf 中 的 异常 值 之 间 寻 找 强烈 的 凝聚 力 ， 以 及 异常 值 与 训练 数据 之 间 较 
大 的 分 离 性 。 如 果 发 现 这 种 强烈 的 凝聚 力 和 分 离 性 ， 我 们 将 声明 这 是 一 个 新 类 。 
当 人 类 专家 揭露 新 类 的 真实 标签 时 ， 将 这 些 实例 用 作 训 练 数 据 ， 并 对 新 模型 进行 
训练 。 最 后 ,使 用 该 模型 更 新 现 有 集合 。 因 此， 模型 集合 的 组 合 ， 将 不 断 丰 富 新 
类 。 算 法 A 总 结 了 该 技术 。 

在 训练 过 程 中 要 创建 决策 边界 : 使 用 天 - means 对 训练 数据 进行 聚 类 ， 并 将 每 
个 复 的 汇总 保存 为 伪 点 。 然 后 丢弃 原始 训练 数据 。 这 些 伪 点 构成 训练 数据 的 决策 
边界 。 
14. 3.2.2 存储 簇 汇总 信息 

对 于 每 个 复 ， 我 们 将 以 下 汇总 信息 存储 在 伪 点 数据 结构 中 : 权重 w( 簇 中 的 总 点 
MX); Qu u; OFB T (质心 和 簇 中 最 远 的 数据 点 之 间 的 距离 ); 外 平均 距离 wd (从 
每 个 点 到 艇 中 心 的 平均 距离 )。 因 此 ,符号 w(h) 表 示 伪 点 h 的 权重 值 ， 依 此 类 推 。 在 计 
算 簇 汇总 之 后 ， 原 始 数 据 被 丢弃 ， 只 有 伪 点 存储 在 内 存 中 。 任 何 具 有 太 少 ( 少 于 三 个 ) 
实例 的 伪 点 都 被 认为 是 干扰 并 且 将 被 消除 。 因 此 ， 用 于 存储 训练 数据 的 存储 器 大 小 就 变 
得 恒定 了 ， 即 ，O(K) 。 

异常 值 检测 和 过 滤 : 每 个 伪 点 有 对 应 于 特征 空间 中 的 超 球 体 ， 这 个 超 球体 具有 中 心 
p CR) 和 半径 R(h)。 由 伪 点 hh 覆盖 特征 空间 的 部 分 是 假 点 区 域 RE(h)。 分 类 器 工 中 所 有 
伪 点 区 域 的 并 集 是 工 中 训练 数据 的 决策 边界 。 分 类 器 工 集合 的 决策 边界 是 集合 中 所 有 
分 类 器 的 决策 边界 的 并 集 。 决 策 边 界 在 新 类 检测 中 起 着 重要 的 作用 。 它 定义 了 现 有 类 中 
实例 的 物理 边界 。 

每 个 测试 实例 都 经 过 测试 ， 以 查看 它 是 否 在 现 有 类 实例 的 决策 边界 之 外 。 为 了 计算 
是 否 越界 ， 我 们 从 每 个 分 类 器 的 测试 实例 中 找到 最 近 的 伪 点 。 如 果 测 试 实例 在 所 有 分 类 
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器 中 每 个 伪 点 的 半径 之 外 ， 则 被 认为 是 异常 值 。 我 们 将 决策 边界 外 的 任何 测试 实例 称 为 
下 异常 值 。 

算法 A: 基于 流 的 新 类 检测 

输入 工 : 最 佳 MM 分 类 器 的 当前 集合 

x; 一 个 未 分 类 的 未 知 实例 

输出 : x 的 类 标签 或 新 类 的 检测 

1. outlier*-detectOutlier (x, L) 








2. if (outlier = , false) then 

3. classify (x, L) // 分 类 为 良性 或 恶意 

4. else bufe=x// 保 存在 异常 值 缓冲 区 

5. if time to check buf then 
found«—DetectNovelClass (buf, L) 

6. if found then | Y«—-Novel, instances ( D,) ; | // 标 记 新 类 实例 

// 如 果 有 一 个 新 的 标签 块 D, 已 经 准备 好 进行 训练 

7. L'*—Train — new - model (D,) 

8. L+-Update (L, LL], D,) 

新 类 检测 : 我 们 对 下 蜡 党 值 进行 多 个 计算 ， 以 检测 新 类 是 否 产生 。 对 于 每 个 下 有 异 

常 值 *， 我 们 将 其 A, 邻 域 A.(x) 定 义 为 属于 类 c B3 x 的 最 近 N 个 邻居 的 集合 。 这 里 ，N 
是 用 户 定义 的 参数 。 例 如 ， BRA, (x) E286 e, Hx 的 最 近 N 个 实例 的 集合 。 类 似 地 ， 
A_(x) 是 指 最 接近 x 的 W 个 严 异 常 值 的 集合 。 
使 用 此 邻 域 信息 ， 我 们 计算 N 近邻 剪影 系数 (N - NSC) ， 度 量 如 下 : 让 alx) ÆA 
异常 值 x BA, (x) 的 实例 的 平均 距离 ， 让 65.(x) 是 从 x 到 A,(x) 实 例 的 平均 距离 (其 中 
c 是 一 个 现 有 类 )。 让 2b,,, (x) 为 所 有 类 cc 的 最 小 5b.(x)。 然 后 ,公式 N - NSC(X) HF X 
给 出 : 



























































bi, (%) -a(x) 

max[ b n(x), a(x) ] 

根据 这 个 定义 ，N - NSC 的 值 在 -1 和 +1 之 间 。 它 实际 上 是 聚合 与 分 离 的 统一 测 
Eo HARR x 靠近 其 他 类 ( 较 少 分 离 ) ， 并 且 远 离 其 自身 的 类 ( 较 弱 的 内 聚 力 )。 如 
果 对 于 所 有 的 分 类 器 ， 至 少 有 N'( > NW) 个 下 异常 值 ， 其 -NSC 为 正 ， 那么 我 们 就 可 以 
声明 一 个 新 类 。 

值得 注意 的 是 ， 的 值 越 大 ， 我 们 可 以 决定 一 个 新 类 是 否 已 经 到 来 的 信心 就 越 大 。 
但 是 ， 如 果 NN 太 大 ， 那 么 在 相应 的 数据 区 块 中 属于 新 类 的 实例 总 数 是 <N 的 ， 我 们 也 可 
无 法 检测 到 一 个 新 的 类 。 因 此 ， 通 过 对 现实 数据 集 的 实验 测试 ， 确 定 N 的 最 优 值 是 
重要 的 。 
具有 特征 演化 的 新 类 检测 : 表示 流 中 数据 点 的 特征 空间 可 能 会 随时 间 变 化 而 变化 ， 
我 们 称 之 为 “特征 演化 ”现象 ( 见 本 章 参考 文献 [LIN11，GOYA09 ] ) 。 例 如 ， 考 虑 一 
个 文本 流 ， 其 中 每 个 数据 点 都 是 一 条 Tweet 消息 ， 每 个 单词 都 是 一 个 特征 。 由 于 不 可 能 
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N - NSC(x) = 















































> unb 























外 云 和 计算 开发 与 安全 

















知道 将 来 会 出 现 哪 些 词语 ， 所 以 完整 的 特征 空间 是 未 知 的 。 此 外 ， 通常 只 使 用 一 部 分 词 
作为 特征 集 ， 因 为 大 多 数 单词 可 能 对 于 分 类 是 元 余 的 。 因 此 ， 在 任何 给 定时 间 、 特 征 空 
间 都 由 使 用 某 些 选择 标准 的 有 用 单词 CBN, BRIE) 来 定义 。 在 未 来 ， 新 词 可 能 成 为 有 
用 的 ， 旧 的 有 用 词 可 能 就 变 得 多 余 ， 特 征 空间 动态 地 改变 。 为 了 应 对 特征 演化 ， 分 类 模 
型 应 该 能 够 正确 地 分 类 具有 不 同 特征 空间 的 数据 点 ， 而 不 是 模型 的 特征 空间 。 下 面 的 示 
例 说 明 两 个 连续 数据 区 块 中 的 特征 演化 。 在 第 i 块 ， 关键 特征 集 是 | PI, ME} 和 
(i+1) 区 块 ， 关键 特 征集 是 | 跑道 ， 空 际 ， 坡 道 | 。 显 然 ， 两 个 不 同 区 块 中 的 关键 特 
征集 是 不 同 的 ， 而 新 的 关键 特征 随 新 类 出 现在 (i1) 区 块 中 。 如 果 我 们 使 用 第 i 块 的 
特征 集 测试 (i+1) 块 的 实例 ， 我 们 可 能 无 法 检测 到 这 个 新 类 。 

大 多 数 现 有 的 数据 流 分 类 技术 都 假设 流 中 数据 点 的 特征 空间 是 静态 的 。 如 上 例 所 
示 ， 对 于 某 些 数据 流 〈 如 文本 流 ) ， 此 假设 可 能 不 切实 际 。 我 们 的 技术 将 考虑 特征 空间 
的 动态 特性 ， 并 为 特征 空间 动态 的 分 类 和 新 类 检测 提供 一 个 合适 的 解决 方案 。 如 果 特 征 
空间 是 动态 的 ， 那 么 我 们 将 在 不 同 的 数据 区 块 中 拥有 不 同 的 特征 集 。 因 此 ， 在 集合 中 的 
每 个 模型 都 将 在 不 同 的 特征 集中 被 训练 。 此 外 ， 测 试 实例 的 特征 空间 也 不 同 于 模型 的 特 
F 空 间 。 当 我 们 需要 对 实例 进行 分 类 时 ， 我 们 需要 为 模型 和 测试 实例 提供 一 个 同 构 的 特 
F 空 间 。 有 三 种 可 能 的 替代 方法 : 中 有 损 固 定 转换 (或 简称 为 Lossy -F 转换)， 在 这 
有 ， 我 们 对 整个 流 使 用 相同 的 特征 集 ， 实 际 上 就 是 为 第 一 个 数据 区 块 (或 前 个 数据 
区 块 ) 选择 的 特征 集 。 这 将 使 特征 集 固定 ， 因 此 流 中 的 所 有 实例 (无论 是 培训 还 是 测 
iX) 都 将 映射 到 此 特征 集中 。 我 们 称 之 为 有 损 转 换 ， 是 因为 将 来 的 模型 和 实例 可 能 会 
因 转换 而 失去 重要 的 特性 。@ 凶 有 损 本 地 转换 (或 简称 为 Lossy - 工 转 换 ): 在 这 种 情况 
下 ， 每 个 训练 区 块 以 及 从 区 块 建立 的 模型 ， 都 将 使 用 特征 抽取 和 选择 技术 来 选择 自己 的 
特征 集 。 当 将 测试 实例 使 用 一 个 模型 M, 进行 分 类 时 ， 模 型 将 使 用 它 自 己 的 特征 集 作为 
测试 实例 的 特征 集 。 此 转换 也 是 有 缺点 的 ， 因 为 该 转换 的 测试 实例 可 能 会 丢失 重要 的 特 
性 。 色 无 损 均 质 转换 (或 简称 无 损 转换 ): 在 这 里 ， 每 个 模型 都 有 自己 选择 的 一 组 特 
征 。 当 测试 实例 x 将 使 用 一 个 模型 M, 分 类 时 ， 模 型 和 实例 都 将 其 特征 集 转换 为 其 特征 
集 的 联合 。 由 于 模型 和 测试 实例 都 保留 了 它们 的 维度 〈 即 特征 ) ， 而 转换 的 特征 空间 对 
于 模型 和 测试 实例 都 是 同类 的 ， 因 此 我 们 称 之 为 “无 损耗 均 质 ”。 这 是 因为 在 转换 的 过 
程 中 没有 任何 有 用 的 特征 丢失 。 由 于 实例 可 能 没有 固定 的 、 预 先 确定 的 特征 向 量 ， 并 且 
由 于 文本 ， 我 们 得 到 可 变 长 度 的 高 维特 征 。 因 此 ， 我 们 应 用 特征 选择 来 选 出 每 个 区 块 的 
最 佳 特 征 ， 并 应 用 上 述 技术 来 构造 同类 的 特征 空间 。 为 了 解决 稀 琉 问题 ， 我 们 正在 研究 
相关 可 能 的 技术 。 为 了 跟踪 带 有 短 消息 的 连续 流 当 中 的 主题 /趋势 ， 可 以 根据 前 景 模型 
和 背景 模型 的 组 合 来 检查 混合 模型 。 前 景 模型 将 根据 上 文 所 述 的 基于 集合 技术 捕捉 
“现在 发 生 的 事情 ” ， 背 景 模型 将 对 抗 数 据 稀 琉 性 〈 见 本 章 参 考 文献 [LIN11] ) 。 


14.3.3 内 容 驱 动 的 位 置 提 取 


Twitter 允许 用 户 将 其 地 理 位 置 指定 为 用 户 信 息 (元 数据 )。 此 位 置信 息 由 用 户 手 动 
输入 或 启用 GPS 的 设备 进行 更 新 。 启 用 GPS 的 设备 更 新 用 户 位 置 的 功能 尚未 被 大 量 用 
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户 采用 ( 见 本 章 参 考 文献 [CHEN10] ) 。 因 此 ， 大 多 数 用 户 的 地 理 位 置 数据 可 能 丢失 或 
不 正确 。 依 赖 用 户 手 动 更 新 位 置 有 几 个 缺点 。 

1) 用 户 可 能 有 不 正确 的 地 理 位 置 数据 。 例 如 ，Twitter 用 户 可 以 输入 他 /她 的 位 置 
为 “Krypton”。 这 可 能 不 是 一 个 真正 地 理 位 置 的 名 称 。 

2) 用 户 不 一 定 总 是 有 城市 级 的 位 置 。 用 户 可 以 含糊 地 输入 位 置 名 称 、 城 市 名 称 
(如 亚利桑那 州 ) 或 国家 名 称 ( 如 美国 ) 。 这 些 位 置 名 称 不 能 直接 用 于 用 户 确定 城市 级 
别 的 位 置 。 

3) 用 户 可 能 有 多 个 位 置 。 如 果 用 户 移动 到 不 同 的 位 置 ， 他 /她 可 能 会 在 他 /她 的 
Twitter 页 面 的 元 数据 中 提 到 不 止 一 个 位 置 。 这 使 得 很 难 确定 其 目前 的 单一 城市 级 地 理 
位 置 。 

4) 用 户 可 能 有 不 完整 的 位 置 数据 。 用 户 可 能 指定 了 一 个 模棱两可 的 名 称 ， 可 能 引 
用 不 同 的 位 置 。 例 如 ， 如 果 用 户 指定 了 如 “华盛顿 ”之 类 的 位 置 ， 则 该 名 称 可 以 与 一 
个 国家 名 称 或 城市 名 称 (华盛顿 特区 ) 相关 。 这 些 不 确定 类 型 的 名 称 使 得 我 们 很 难 确 
定 用 户 的 准确 位 置 。 

因此 ， 这 种 情况 下 ， 确 定 一 个 用 户 城市 级 地 理 位 置 的 数据 的 可 靠 性 很 低 。 为 了 克服 
用 户 稀少 的 地 理 定位 信息 的 问题 ， 我 们 仅仅 基于 他 /她 的 Tweet 内 容 以 及 相关 回复 消息 
的 内 容 ， 来 评估 Twitter 用 户 的 城市 级 地 理 位 置 。 我 们 使 用 一 个 PDF， 它 考虑 了 一 个 特 
定 会 话 的 Tweet 消息 中 术语 的 分 布 ， 这 个 会 话 由 用 户 发 起 。 并 包含 tweet 的 回复 消息 。 
我 们 的 工具 建立 在 14. 2 节 讨 论 的 基础 工作 上 。 
14.3.3.1 动机 

在 Twitter 上 ， 用 户 可 以 发 布 被 称 为 Tweet (HEX) 的 微 博 ， 可 供 其 他 用 户 阅读 。 随 
着 这 种 微 博 服务 Twitter 还 提供 了 一 个 社交 网 络 服务 ， 用户 (关注 者 ) 可 以 “关注 ” 
另 一 个 用 户 (被 关注 者 )。 社 会 网 络 的 每 个 边 都 由 这 种 “关注 ”关系 形成 。 作 为 关注 
者 ， 用 户 收 到 所 有 关注 者 发 布 的 推 文 ， 反 过 来 可 以 回复 这 些 推 文 。 这 个 回复 推 文 由 被 关 
注 者 的 关注 者 收 到 。 这 形成 了 两 个 不 同 用 户 之 间 基 础 的 对 话 。Huberman 等 人 ( 见 本 章 
参考 文献 [HUBEO9]) 分 析 了 超过 30 万 的 用 户 ， 发 现 reply — tweet 和 定向 推 文 占 Twitter 
的 所 有 帖子 的 25.4% 。 这 表明 在 Twitter 用 户 之 间 广 泛 使 用 了 reply - tweet 功能 。 (图 
14.5 举例 说 明了 一 个 例子 ) 

我 们 的 直觉 告诉 我 们 ， 用 户 之 间 的 对 话 可 以 与 一 系列 主题 相关 ,例如 天 气 、 体 育 
等 ,包括 某 些 特定 位 置 的 主题 ， 例 如 与 城市 相关 的 事件 或 对 特定 地 点 的 引用 ， 或 城市 中 
一 个 实体 。 我 们 假设 这 一 组 话题 在 对 话 中 保持 不 变 。 当 用 户 发 布 推 文 消息 时 ， 可 以 将 其 
视 为 对 话 的 开始 。 当 另 一 个 用 户 向 原始 的 推 文 发 帖 回复 推 文 时 ， 此 会 话 可 以 继续 。 没 有 
详细 说 明 回 复 的 主题 ， 可 以 假设 主题 与 原始 的 推 文 消息 相同 。 在 这 种 假设 下 ， 答 复 推 文 
的 任何 内 容 都 可 以 与 原始 的 推 文 信息 相关 。 例 如 ， 考 虑 图 14.5 中 两 个 用 户 交换 的 推 文 
消息 。 一 个 用 户 发 推 文 消 息 ， 另 一 个 用 户 回复 推 文 消 息 。 请 注意 ， 会 话 中 的 会 话 主题 保 
持 不 变 。 因 此 ， 通 过 结合 上 述 假设 ， 使 用 可 能 具有 位 置 特定 数据 的 推 文 内 容 ， 我 们 应 该 
获得 比如 果 我 们 孤立 地 考虑 推 文 或 者 我 们 只 依赖 于 用 户 指 定位 置 的 更 好 的 结果 。 
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ScoreKeeperAICN 

Want to believe you'll win an X-FILES 4-CD 
Soundtrack Box Set from LaLaLandRecords? 
aintitcool_com/node/49712 


20 May 


E @Dharma Tel 


ScoreKeeperAICN Aww man, I 
didn't win The X-Files CDs yet my 
submitted fav ep & music moment 
were the same as yours! Itsa 
conpiracy! ;) 





Echofon 








图 14.5 推 文 示例 











14.3.3.2 挑战 : 拟 议 方 案 

仅仅 使 用 推 文 内 容 来 估计 Twitter 用 户 的 位 置 ， 以 及 上 面 提 及 的 直觉 ， 都 将 给 我 们 
带 来 一 些 挑战 。 这 些 挑战 是 基于 推 文中 使 用 自然 语言 的 语义 复杂 性 。 有 些 用 户 可 能 会 在 
其 推 文中 使 用 非 标准 词汇 。 一 个 城市 的 用 户 可 以 使 用 不 同 的 名 字 指 向 相同 位 置 的 特定 实 
体 。 例 如 ， 来自 洛杉矶 的 用 户 可 以 将 城市 的 名 字 称 为 洛杉矶 、 洛 杉 矶 市 、 洛 杉 矶 城市 
等 。 用 户 也 可 以 引用 具有 相同 名 称 的 不 同位 置 。 例 如 ， 来自 纽 约 的 用 户 可 以 将 纽约 州 的 
街道 名 字 称 为 第 六 街 ， 奥 斯 汀 的 用 户 可 以 在 奥 斯 丁 引用 相同 名 称 的 街道 。 这 些 例 子 泛 化 
了 这 些 术 语 的 空间 分 布 。 

推 文 并 不 总 是 包含 特定 位 置 的 术语 。 他 们 可 能 会 包含 许多 来 自 自然 语言 的 一 般 词 
语 ， 因 为 许多 用 户 对 一 般 主题 发 表 推 文 。 因 此 ， 推 文 的 内 容 被 认为 是 嘲 杂 的 。 

推 文 可 能 包含 指向 多 个 位 置 的 术语 ， 这 会 降低 推算 用 户 特 定位 置 的 能 力 。 作 为 假 
设 ， 在 考虑 对 话 时 ， 会 话 的 主题 可 能 在 整个 会 话 中 保持 不 变 。 在 回复 推 文中 更 改 主题 可 
能 会 导致 多 个 位 置 特定 术语 或 术语 空间 被 宽泛 分 布 。 对 于 这 些 问题 ， 我 们 提出 了 两 种 方 
法 ， 从 他 的 消息 或 博客 中 提取 用 户 的 城市 居住 地 点 。 

在 第 一 种 方法 中 ， 我 们 使 用 PDF 来 估计 每 个 Twitter 用 户 的 城市 级 位 置 。 这 种 可 能 
性 是 基于 Twitter 消息 的 内 容 ， 借 助 Twitter 社交 网 络 中 不 同 用户 之 间 交 互 产生 的 回复 推 
文 消息 。 使 用 回复 的 推 文 消息 可 以 更 好 地 提供 与 用 户 位 置 相关 联 的 字 词 ， 从 而 减少 术语 
空间 分 布 中 的 干扰 。 我 们 还 为 每 个 用 户 提供 了 最 可 能 的 城市 名 单 。 

如 前 所 述 ， 仅 从 推 文 内 容 中 提取 地 理 位 置 特定 信息 ,很 具有 挑战 性 。 使 用 社交 交互 
模型 ,我们 用 用 户 之 间 任 何 交 互 中 所 使 用 的 推 文 内 容 ， 来 确定 对 话 期 间 使 用 术语 的 概率 
分 布 。 在 第 二 种 方法 中 ， 我 们 研究 以 用 户 为 中 心 的 位 置 挖掘 方法 ， 该 方法 希望 从 他 的 消 
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第 公章 云端 社交 网 络 攻 
息 中 识别 特定 用 户 的 单个 城市 级 家 庭 位 置 。 与 第 一 种 方法 不 同 ， 第 一 种 方法 是 针对 来 自 
社交 互动 的 消息 ， 这 种 方法 是 一 种 更 为 简单 的 方法 ， 适 用 于 所 有 社交 媒体 ， 包 括 Twit- 
ter、 博 客 等 。 

社会 交往 概率 分 布 模型 (Probability Distribution Model，PDM ) : 在 这 种 概率 分 布 中 ， 
每 个 用 户 都 可 以 被 认为 属于 一 个 特定 的 城市 。 因 此 ， 用 户 的 推 文 可 以 被 假设 为 与 特定 城 
市 相关 ， 特 别 是 发 布 推 文 的 用 户 所 在 的 地 理 位 置 ， 也 就 是 说 ， 用 户 推 文中 出 现 的 术语 可 
被 分 配 为 与 用 户 城市 相关 的 术语 。 这 就 形成 了 在 完整 数据 集中 考虑 一 组 城市 术语 的 基本 
分 布 。 对 于 每 个 城市 c， 整 个 数据 集中 项 上 的 概率 分 布 被 给 出 为 

p(t|e) = | {ilt © terms At occurs in city c} |/ |e | 

形成 大 小 为 n x m WERDER, KP n 是 项 列表 的 大 小 ， 即 字典 的 大 小 ，m 
被 考虑 用 于 评估 的 数据 集中 的 城市 总 数 。 

基于 回复 的 概率 分 布 模型 (Reply - Based Probability Distribution Model, RBPDM) ; 
在 PDM 的 基本 概率 分 布 计算 中 ,用户 在 其 推 文中 使 用 的 术语 被 分 配给 用 户 所 属 的 城市 。 
它 不 考虑 不 同 推 文 消息 之 间 的 关系 。 

Twitter 提供 了 一 个 功能 ， 可 以 在 称 为 回复 标签 的 推 文中 标记 另 一 个 用 户 。 该 标签 将 
消息 引导 到 在 推 文 中 寻 址 的 用 户 。 考 虑 到 这 一 点 ， 推 文 信息 可 以 分 为 三 种 不 同 的 类 型 : 

1) 推 文 消息 是 用 户 通常 在 Twitter 上 发 布 的 一 般 消息 。 这 些 推 文 消息 不 包含 任何 回 
复 标签 。 这 种 类 型 的 推 文 消息 中 使 用 的 术语 ， 可 以 用 于 与 用 户 城市 术语 的 空间 分 布 进行 
直接 关联 。 

2) 推 文 消息 是 包含 用 户 回 复 标签 的 消息 。 这 种 类 型 的 消息 称 为 推 文 回 复 消 息 。 此 
消息 通常 用 于 回复 另 一 个 用 户 发 布 的 某 个 推 文 。 推 文 回 复 消 息 将 被 发 送 给 正在 被 回复 的 
用 户 ， 也 就 是 发 给 原始 推 文 消 息 的 用 户 。 此 推 文通 常会 在 推 文 消 息 开 头 包含 回复 标签 。 

3) 推 文 消息 是 具有 回复 标签 的 消息 ， 但 可 能 不 是 回复 推 文 。 它 可 能 是 一 个 发 给 用 
户 的 推 文 消息 ,但 不 需要 该 用 户 对 该 推 文 回 复 。 此 消息 可 能 包含 推 文 单词 之 间 的 回复 标 
签 。 它 也 可 能 是 用 户 转发 用 户 的 推 文 消息 的 重新 推送 ,以便 他 /她 的 关注 者 可 以 收 到 推 
文 消息 。 

当 考 虑 到 推 文中 的 回复 标签 时 ,会 产生 两 条 推 文 消息 之 间 的 关联 。 回 复 推 文 将 与 来 
自用 户 生成 回复 推送 消息 的 原始 推 文 直接 关联 。 POM 忽略 了 推 文 消息 之 间 的 所 有 关系 。 
在 这 里 ， 我 们 考虑 不 同 推 文 消息 之 间 的 这 种 关系 ， 同 时 计算 数据 集中 术语 的 概率 分 布 。 
这 种 关系 形成 了 不 同 用 户 之 间 对 话 的 基础 ， 即 一 个 推 文 消 息 ， 其 回复 消息 可 以 被 认为 是 
用 户 之 间 的 对 话 。 因 此 ， 通 过 假设 ,话题 的 主题 在 回复 消息 中 保持 不 变 ， 会话 中 使 用 的 
术语 可 以 与 会 话 的 主题 相关 。 对 话 可 能 涉及 与 该 主题 相关 的 特定 于 位 置 的 术语 ， 而 不 是 
明确 地 将 发 短信 使 用 的 术语 分 配给 发 布 推 文 的 用 户 ， 可 以 将 完整 对 话 中 出 现 的 术语 分 配 
给 发 起 对 话 的 用 户 ， 因 为 发 起 者 可 以 发 起 涉及 他 /她 地 理 位 置 的 对 话 主题 位 置 。 因 此 ， 
当 在 数据 集中 遇 到 回复 推 文 时 ， 我 们 将 推 文中 涉及 的 术语 分 配给 发 送 推 文 的 用 户 ， 而 不 
是 发 布 回 复 推送 消息 的 用 户 。 通 过 把 这 些 术语 分 配给 不 同 用 户 ， 在 不 考虑 识别 不 同类 型 
的 推 文 消息 及 其 关系 时 ， 我 们 评估 其 概率 分 布 。 因 此 ， 在 佑 计 Twitter 社交 网 络 中 用 户 
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《加 三 计算 开发 与 安全 





的 地 理 位 置 时 ， 考 虑 的 是 网 络 的 社会 结构 。 

术语 分 布 估计 : 使 用 在 数据 集中 城市 间 的 术语 分 布 ， 可 以 基于 最 大 似 然 法 来 计算 给 

定 项 上 中 城市 的 概率 。 
pe |t) = MAX y e ciis P (E |c) 

用 户 位 于 城市 e 中 的 概率 估计 ,是 从 城市 e 的 用 户 推 文中 提取 术语 的 总 概率 , 即 

plelw) = ,之 p(e|w) pw) 

使 用 该 公式 ， 如 前 所 述 获 得 概率 估计 矩阵， 其 大 小 为 Px9qg， 其 中 是 用 户 列表 的 大 
小 ,9 是 在 数据 集中 城市 列表 的 大 小 。 城 市 级 别 地 理 位 置 的 估计 可 以 通过 对 该 用 户 对 应 
的 最 高 相关 城市 概率 来 获得 ， 也 可 以 通过 对 每 个 用 户 的 概率 估计 矩阵 进行 排序 ， 并 从 其 
中 列 出 最 上 面 的 个 最 可 能 的 城市 来 获得 顶级 个 估计 城市 的 列表 。 
14.3.3.3 使 用 地 名 词典 和 自然 语言 处 理 

在 讨论 实际 运行 算法 (参见 算法 B) 之 前 ， 我 们 需要 执行 数据 预 处 理 ， 最 初 涉 及 使 
用 如 城市 字典 之 类 的 外 部 词典 来 理解 粗俗 的 口语 ， 并 用 适当 的 短语 替换 它们 ， 以 获得 语 
法 正确 的 句子 。 之 后 ， 我 们 删除 了 消息 中 所 有 没有 涉及 地 理 位 置 的 单词 ( 见 图 14.6) 。 
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微观 层面 的 定位 信息 包括 兴趣 点 、 
街道 交叉 口 等 


14.6 使 用 地 名 词典 和 自然 语言 处 理 方法 











为 此 ， 我 们 使 用 英语 的 部 分 语音 (Part Of Speech, POS) 标签 。POS 标签 从 文本 中 
识别 所 有 专 有 名 词 ， 并 将 其 称 为 关键 字 |K,，K,，…，K,|。 在 下 一 步 中 ， 搜 索 TIGER 
(拓扑 集成 地 理 编 码 和 参考 系统 ，Topologically Integrated Geographic Encoding and Referen- 
cing system) 数据 集 ， 从 中 识别 城市 名 称 。TIGER 数据 集 是 一 个 开源 地 名 词典 ， 由 整个 
美国 的 拓扑 记录 和 形状 文件 组 成 ， 具 有 城市 、 县 、 邮 政 编码 、 街 道 段 等 坐标 。 
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我 们 搜索 TIGER 地 名 词典 ， 以 了 解 关于 概念 | Ci ,C,,…,C,| 的 每 个 关键 字 。 现 在 ， 
对 于 每 个 关键 字 ， 我 们 的 目标 是 选择 列表 中 的 正确 概念 ， 换 句 话说， 就 是 消除 位 置 的 歧 
义 。 为 此 ， 我 们 使 用 基于 权重 的 方法 来 消除 歧义 。 我 们 根据 文本 中 出 现 的 术语 〈 阶 段 
1) 为 每 个 概念 分 配 权 重 。 与 一 般 的 概念 相 比 ， 具 体 概念 被 赋予 更 大 的 权重 。 然 后 ， 检 
查 概念 之 间 的 相关 性 ， 其 中 一 个 概念 包含 在 男 一 个 概念 之 中 (阶段 2)。 在 这 种 情况 下 ， 
具体 的 概念 就 从 一 般 的 概念 中 得 到 提升 。 如 果 具 体 的 概念 C, 是 另 一 个 C 的 一部分， 则 
C 的 权重 被 加 到 C, 的 权重 上 。 

算法 B: 位 置 识别 (User Messages) 

输入 UM: 用 户 的 所 有 消息 

输出 矢量 (C, S): 概念 和 得 分 矢量 
. for each keyword, K,// 阶段 1 
. for each Ci s K//C, - 城市 概念 
. for each Trs C, 






































. type = Type (T,) 
. if (T, occurs in UM) then Sg = So * SV 
. for each K// Dr Ez 2 
. for each C, e K, 
. for T; e C,, T. eC, 
. If (T, Z T.) and (C,7C,) then 

10. type = Type (T,) 

11. S; =S6 + Su. 

12. return (C, S) 

例如 ， 概 念 中 有 城市 则 得 15 4, HM 10 分 ， 有 国家 名 字 得 5 分 。 关 于 “ 达 
拉 斯 ”的 关键 词 ， 考 虑 到 | City} 达拉斯 M) 得 克 陕 斯 / 1 Country} 美国 这 个 概 
念 。 这 个 概念 可 得 到 15 分 ， 因 为 达拉斯 是 一 个 城市 的 名 字 ， 如 果 得 元 萨 斯 在 文中 
也 被 提 到 ， 它 将 再 获得 10 分 。 在 第 一 阶段 ， 我 们 考虑 两 个 关键 词 之 间 的 关系 。 考 
虑 到 前 面 的 例子 ， 如 果 | Dallas, Texas} 是 文本 中 出 现 的 关键 词 ， 那 么 在 “ 达 拉 
斯 ”中 列 出 的 各 种 概念 ， 将 会 是 1City} 达拉斯 / DM] 得 克 萨 斯 州 / 1Country} 美 
国 和 其 中 一 个 概念 “得 州 ” 将 是 | 州 | 得 州 / | 国家 | 美国 。 现 在 ， 在 第 二 阶段 ， 
我 们 检查 这 样 的 相关 概念 ， 其 中 一 个 概念 包含 另 一 个 概念 。 在 这 种 情况 下 ， 更 具 
体 的 概念 从 更 一 般 的 概念 中 得 到 提升 。 在 这 里 ， 上 述 得 克 萨 斯 概念 提升 到 更 具体 
的 达拉斯 概念 。 在 两 个 阶段 完成 之 后 ， 我 们 按照 权重 的 降序 重新 排列 概念 。 接 下 
来 ， 每 个 概念 被 赋予 取决 于 它们 各 自 权 重 的 新 概率 。 

一 旦 确定 了 城市 级 位 置 ， 该 算法 将 重点 关注 在 识别 文本 中 可 能 提 到 的 微观 层面 的 位 
置 (博客 、 推 文 等 )。 为 此 ， 我 们 将 使 用 地 理 空间 接近 度 和 基于 上 下 文 的 消 歧 算法 ， 该 
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算法 使 用 丰富 的 兴趣 点 (Point Of Interest, POI) 数据 库 (Foursquare Venue 数据 集 作为 
一 个 例子 ) 来 识别 潜在 的 微观 层面 的 地 方 ， 如 咖啡 店 、 学 校 、 餐 馆 、 礼 拜 场所 等 。 该 
算法 将 返回 一 个 地 点 列表 ， 与 该 特定 关键 字 匹 配 ， 并 位 于 以 前 由 我 们 已 经 确定 的 城市 。 
现在 ， 我 们 每 个 关键 字 的 目标 是 选择 列表 中 的 正确 概念 。 换 句 话 说， 确定 用 户 所 指 位 置 
是 正确 的 POI。 为 此 ， 我 们 使 用 两 阶段 完成 消 歧 过 程 。 第 一 阶段 由 基于 上 下 文 的 评分 组 
成 。 地 名 词典 中 的 每 个 POI 条 目 都 与 标签 相关 联 ， 并 且 通 过 使 用 WordNet 语义 相似 性 度 
量 ， 我 们 计算 消息 和 POI 条目 之 间 的 相似 性 。 这 是 为 了 根据 用 户 可 能 参考 的 地 点 类 型 来 
消除 正确 POI 的 歧义 。 之 后 ， 在 第 二 阶段 中 ， 针 对 特定 用 户 ， 我 们 简单 地 提升 之 前 确定 
的 POI 集合 中 每 个 POI 候选 者 的 接近 度 分 数 。 所 以 ， 对 于 一 个 一 用 户 ， 如 果 在 洛杉矶 地 
区 有 多 个 星巴克 咖啡 店 的 返回 信息 ， 那 么 算法 会 选择 更 接近 他 的 舒适 区 域 (很 可 能 是 
也 的 家 庭 或 办 公 室 ) 的 星巴克 门店 。 


14.3.4 分 类 


我 们 工作 的 一 个 主要 目标 是 从 推 文中 提取 实体 ， 并 对 消息 进行 分 类 。 然 后 ， 我 们 提 
供 隐 藏 在 推 文中 知识 的 语义 表示 。 这 将 使 分 析 师 能 够 更 直接 地 与 隐藏 的 知识 进行 交互 。 
我 们 基于 14. 2 节 讨 论 的 基础 工作 进行 分 类 。 

实体 提取 : 实体 是 知识 表示 中 的 基本 元 素 。 我 们 已 经 开发 了 相关 技术 ,来 识别 消息 
中 几 个 重要 的 实体 ， 包 括 事件 、 人 位置、 人员、 组 织 等 。 在 一 些 文献 中 ， 已 经 说 明 实 体 提 
取得 到 了 广泛 的 研究 。 最 有 效 的 方法 是 把 它 看 作为 分 类 问题 ， 并 应 用 监督 的 学 习 方 法 。 
我 们 也 采用 相同 的 策略 ， 并 利用 许多 公开 的 工具 来 执行 此 任务 。 我 们 首先 使 用 FEX 
(可 从 http: //l2r. cs. uiuc. edu/cogcomp/asoftware. php? skey = FEX 获得 ) 进行 特征 提取 
FI BBR (可 从 http; //www. stat. rutgers. edu/madigan/BBR/3k 78) 用 于 逻辑 回归 ， 以 识 
别 Twitter 中 有 趣 的 实体 。 我 们 已 成 功 地 使 用 FEX 和 BBR 来 识别 NASA ASRS 报告 ( 见 
本 章 参考 文献 [ AHME10a]) 中 的 名 称 。 
虽然 一 些 现 有 的 算法 和 工具 可 供 我 们 使 用 ， 但 我 们 必须 解决 的 一 个 主要 挑战 是 创建 
标记 的 数据 以 方便 后 面 的 训练 。 标 记 数 据 的 过 程 通常 是 开销 巨大 的 。 我 们 提出 研究 解决 
这 个 问题 的 两 个 策略 : 中 我 们 采用 自 举 方法 ， 首 先 要 依靠 语言 规则 ,来 识别 给 定 类 型 的 
实体 中 那些 易于 识别 的 实例 ， 然 后 使 用 基于 规则 的 识别 器 生成 监督 学 习 的 训练 数据 ; 
@) 我 们 采用 一 些 基 于 现 有 工作 的 域 适应 技术 ,来 优化 存在 于 其 他 相关 领域 (如 新 闻 领 
域 ) 的 训练 数据 。 当 我 们 重用 一 些 现 有 的 训练 数据 时 ， 这 些 技术 可 以 有 效 地 避免 过 度 
拟 合 。 由 于 提取 的 实体 目的 在 于 数据 挖掘 ， 我 们 期 望 可 以 容忍 实体 识别 中 的 一 些 错误 。 
如 果 我 们 需要 进一步 提高 准确 性 ， 我 们 将 探索 手动 标记 一 些 示例 的 可 能 性 。 上 面 讨论 的 
策略 可 以 帮助 产生 最 有 前 景 的 积极 示例 。 一 般 来 说 ， 主 动 学 习 可 以 用 于 选择 用 于 用 户 判 
断 的 例子 。 

多 标签 文本 分 类 : 社会 通信 数据 和 相关 信息 的 分 类 在 这 种 数据 分 析 中 起 着 重要 的 作 
用 。 为 了 找到 一 种 非常 适合 社交 媒体 数据 的 分 类 技术 ， 我们 首先 需要 了 解 这 些 数 据 与 其 
非 文本 对 象 的 区 别 。 其 次 ， 这 些 数据 集中 的 消息 通常 采用 非 正 式 的 写法 。 这 样 ， 消 息 的 
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特征 ， 就 具有 非常 高 和 稀疏 的 维度 ， 因 为 这 些 维度 或 特征 空间 ， 由 出 现在 相应 自然 语言 
词汇 表 中 的 所 有 不 同 词组 成 ， 组 成 情况 多 种 多 样 。 

我 们 认为 的 第 二 个 差异 在 于 分 类 时 ， 其 与 多 个 类 别 关 联 的 趋势 越 来 越 大 。 文 本 数据 
集 本 质 上 可 以 是 二 进 制 、 多 类 或 多 重 标签 。 对 于 二 进 制 类 和 多 类 ， 只 能 将 一 个 类 标签 与 
一 个 文档 相关 联 ， 并 且 类 标签 关联 之 间 是 相互 排斥 的 。 然 而 ， 在 多 标签 数据 的 情况 下 ， 
多 个 类 标签 可 以 同时 与 一 个 消息 相关 联 。 

在 多 标签 数据 分 类 中 ， 类 标签 可 以 同时 出 现 ， 不 同类 标签 共同 出 现 的 频率 表示 类 标 
签 不 是 彼此 独立 的 。 此 外 ， 并 非 所 有 的 类 标签 组 合 都 出 现在 数据 集中 。 因 此 ， 假 设 类 标 
签 是 独立 的 ， 但 在 分 类 过 程 中 实际 上 是 不 正确 的 。 例 如 ,在 ASRS NASA 数据 集中 ,我 
们 共 考 虑 了 21 个 类 。 有 些 类 标签 永远 不 会 组 合 在 一 起 。 例 如 ， 给 出 两 个 属性 的 标签 ， 
(飞机 装备 问题 ,关键 和 较 不 严重 ) 和 (冲突 不 那么 严重 和 关键 ) ， 我 们 知道 两 个 标 
4 〈 飞 机 设备 问题 : 关键) 和 (冲突 : 不 那么 严重 ) 永远 不 会 发 生 在 一 起 ， 这 是 从 他 
们 的 名 字 显 而 易 见 的 。 然 而 ， 飞 机 设备 问题 : 严重 和 冲突 ， 严 重 级 别 可 以 共同 发 生 。 在 
分 类 过 程 中 ， 考 虑 到 这 种 变化 共生 的 概率 ， 可 以 在 一 定 程度 上 允许 我 们 生成 不 共同 出 现 
类 别 标签 对 的 艇 。 

为 了 对 Twitter 进行 分 类 ， 我 们 利用 文本 分 类 。 为 此 ， 我 们 使 用 SISC 算法 ( 见 本 章 
参考 文献 [ AHME09] 、[ AHME10a] 、[ AHME10b] ) ， 其 在 少量 或 有 限量 的 标记 训练 数 
据 集 下 ， 将 子 空 间 聚 类 与 区 - NN 方法 以 及 半 监 督学 习 方 法 相 结合 使 用 。 为 了 正确 解释 
这 些 数据 的 多 重 标签 属性 ， 模 糊 聚 类 可 以 以 更 有 意义 的 方式 执行 此 解释 。 事 实 上 ， 模 糊 

空间 聚 类 的 概念 与 文本 数据 的 概念 匹配 ， 也 就 是 具有 高 和 稀 玖 的 维度 以 及 多 标签 属 
性 。 子 空间 聚 类 人 允许 我 们 在 加 权 超 空间 ( 见 本 章 参考 文献 [FRIGOA]) 中 找到 集群 ， 并 
且 可 以 帮助 我 们 找到 只 在 一 个 维度 的 子 集中 形成 篮 的 文档 。SISC ( 见 本 章 参考 文献 
[ AHME09 ] ) 是 我 们 在 实验 中 使 用 的 这 么 一 种 算法 。 


14.3.5 本 体 构 建 


本 体 是 概念 及 其 相互 关系 的 集合 ， 可 以 集中 提供 应 用 程序 域 的 抽象 视图 〈 见 本 章 
参考 文献 [KHAN02] ) 。 基 于 本 体 的 模型 有 两 个 不 同 的 问题 /任务 : 一 个 是 从 关键 字 中 
提取 语义 概念 ， 另 一 个 是 本 体 的 实际 构建 。 关 于 第 一 个 问题 ， 关 键 是 确定 描述 和 标识 消 
息 的 适当 概念 〈 如 前 所 述 ) 。 这 样 一 来 ， 重 要 的 是 确保 不 相关 的 概念 不 会 被 关联 和 匹 
配 ， 相 关 概念 也 不 会 被 丢弃 。 关 于 第 二 个 问题 ， 就 是 要 自动 构建 本 体 。 在 这 里 ， 我 们 通 
过 提出 一 种 自动 构建 本 体 的 新 方法 来 共同 解决 这 两 个 问题 。 

基于 14.2 节 中 讨论 本 体 构建 的 基础 工作 。 我 们 的 方法 是 以 自 下 而 上 的 方式 自动 构 
建 本 体 。 为 此 ， 我 们 首先 使 用 一 些 聚 类 算法 构建 层次 结构 。 回 想 一 下 ， 如 果 文 档 在 内 容 
中 彼此 相似 ， 则 它们 将 与 本 体 中 相同 概念 相关 联 。 接 下 来 ， 我 们 需要 为 层次 结构 中 的 每 
个 节点 分 配 一 个 概念 。 如 前 所 述 ， 为 此 ， 我 们 部 署 了 两 种 策略 ， 并 采用 自 下 而 上 的 概念 
分 配 机 制 。 首先， 对 于 由 一 组 文档 组 成 的 每 个 群集 ,我 们 基于 修改 的 Rocchio 算法 为 主 
题 跟 踪 分 配 一 个 主题 。 然 而 ， 如 果 有 多 个 概念 是 主题 的 候选 者 ， 我 们 提出 一 种 智能 的 促 
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裁 方 法 。 接 下 来 ,为 了 将 概念 分 配给 层次 结构 中 的 内 部 节点 ,我 们 使 用 语言 学 本 体 的 
WordNet。 内 部 节点 的 后 代 概 念 也 将 在 WordNet 中 被 识别 。 从 这 些 识别 的 概念 和 它们 的 
上 位 词 中 ,我 们 可 以 识别 一 个 更 为 通用 的 概念 ， 也 可 以 被 分 配 为 内 部 节点 的 概念 。 

考虑 到 是 层次 结构 ， 我 们 采用 自动 化 构建 本 体 。 为 此 ， 需 要 依靠 从 上 到 下 构建 层次 
结构 的 SOTA。 我 们 修改 原始 算法 ， 并 提出 了 一 种 与 层次 聚 类 算法 相 比 ， 以 更 高 的 精度 
构建 层次 结构 的 有 效 算 法 ( 见 本 章 参 考 文献 [LU004] ) 。 为 了 说 明 自 动 本 体 构建 方法 
的 有 效 性 ， 我 们 在 文本 文件 中 探讨 了 本 体 建构 。Reuters21578 文本 、 文 档 语料库 已 被 使 
用 。 我 们 已 经 观察 到 ， 修 改 后 的 SOTA 在 精度 方面 优 于 凝聚 聚 类 。 这 项 工作 的 主要 贡献 
如 下 : 

1) 我 们 提出 一 种 可 以 用 于 自动 生成 本 体 的 新 机 制 ， 使 得 我 们 的 方法 具有 可 扩展 
性 。 为 此 ， 我 们 修改 从 上 到 下 构建 层次 结构 的 现 有 SOTA, 

2) 此 外 ， 为 了 层次 结构 中 的 每 个 节点 都 能 找到 一 个 适当 的 概念 ， 我 们 从 WordNet 
语言 本 体 论 中 开发 了 一 种 自动 概念 选择 算法 。 

图 14.7 显示 了 本 体 构 建 的 一 个 例子 。 
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图 14.7 本 体 构建 


14.4 走向 SNODSOC + + 





我 们 正在 研究 将 多 种 工具 集成 以 开发 SNODSOC + +, TERE, FEF SNOD 的 SNOD- 
SOC 具有 一 些 局 限 性 。 首 先 ，SNOD 不 考虑 由 于 流 的 动态 性 质 而 发 生 的 特征 演化 问题 
( 稍 后 将 解释 ) 。 其 次 ， 如 果 流 中 出 现 多 个 新 类 ，SNOD 就 不 能 检测 到 它们 。 再 次 ， 
SNOD 没有 解决 高 维特 征 空间 的 问题 ,这 可 能 导致 更 高 的 训练 和 分 类 误差 。 最 后 ， 
SNOD 不 对 特征 提取 和 分 类 应 用 进行 任何 优化 。 因 此 ， 我 们 正在 开发 一 个 实用 和 强大 的 
博客 和 推 文 检测 工具 ， 我 们 称 之 为 SNODSOC。 要 从 SNODSOC 发 展 到 SNODSOC + +, 
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我 们 首先 需要 将 SNOD 扩展 到 SNOD + + 。 也 就 是 说 ， 我 们 建议 将 SNOD 扩展 到 SNOD + 


+ 中 ， 这 比 SNOD 更 实用 和 更 强大 。 除 了 解决 无 限 长 度 、 




















概念 漂移 和 概念 演化 问题 之 








外 ，SNOD + + 还 处 理 特征 演化 和 多 个 新 类 ， 以 及 应 用 子 空 间 聚 类 和 其 他 优化 ， 所 有 这 


些 都 提高 了 其 鲁 棒 性 、 性 能 和 精度 。 我 们 开发 的 所 有 工具 





(例如 LOCEXT, ONTCON 和 


ENTEXT) 正在 与 SNODSOC 和 集 成， 来 开发 SNODSOC + +, SNODSOC + + 将 基本 上 会 





实现 SNODSOC 与 从 推 文 和 博客 中 提取 的 语义 知识 相 结合 。 
14.4.1 SNODSOC + + 的 益处 

















SNODSOC + + 将 在 社交 网 络 分 析 应 用 程序 中 发 挥 作用 ， 包 括 交互 自 适 应 检测 的 博 

















客 和 推 文 。SNODSOC + + 将 能 够 处 理 大 量 的 训练 数据 ， 




















也 将 能 够 应 付 数 据 中 的 漂移 。 


这 些 特 性 使 得 它 比 使 用 静态 数据 训练 的 博客 和 推 文 探测 器 更 加 实用 和 更 加 健壮 。 此 外 ， 


它 可 以 用 于 检测 一 个 或 多 个 新 类 的 博客 和 推 文 。 回 想 一 下 








， 现 有 的 博客 和 推 文 检测 技术 


可 能 无 法 检测 出 的 全 新 模式 ， 但 是 SNODSOC + + 能够 检测 到 这 样 的 新 类 和 引发 警报 。 





随后 ， 博 客 将 被 人 类 专家 分 析 和 描述 。 特 别 是 ，SNODSOC 




















+ + 将 比 SNODSOC 更 健壮 和 








更 有 用 途 ， 因 为 SNODSOC + + 将 能 够 在 流 中 检测 多 个 新 的 博客 和 推 文 。 同 时 ， 由 于 其 
对 高 特征 维度 的 鲁 棒 性 和 分 布 式 特征 抽取 和 选择 的 应 用 ， 具 有 和 较 高 的 分 类 精度 和 更 快 的 











训练 时 间 。 


14.5 基于 云 的 社交 网 络 分析 











如 前 所 述 ， 云 计算 作为 数据 密集 型 应 用 程序 实现 极 高 可 扩展 性 的 设计 模型 ， 越 来 越 





受 欢迎 。 在 云 计算 范例 中 ,数据 存储 和 检索 操作 是 并 行 的 ， 











在 商品 硬件 集群 上 进行 。 云 














计算 解决 方案 已 被 主要 生产 行业 领导 者 所 采用 ， 如 谷歌 、 亚 马 逊 和 Facebook, Fe {IM A 











标 是 集成 多 个 社交 网 络 并 分 析 云 中 的 数据 ， 如 图 14. 8 所 示 
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Map/Reduce 






SNA 1 
例如 Twitter 






SNA3 
例如 Facebook 











图 14.8 ”基于 云 的 社交 网 络 分 析 













SNA2 
例如 LinkedIn 






SNA 4 
例如 X 








为 了 开发 可 扩展 的 SNODSOC 和 SNODSOC + + ， 我 们 正在 使 用 Twitter Storm, 
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在 GitHub 的 Eclipse 公共 许可 1.0 之 下 , 它 是 一 个 分 布 式 、 容 错 、 实 时 计算 系统 。 
Storm 是 一 个 由 BackType 开发 的 实时 处 理 系统 ， 现 在 由 Twitter 进行 保护 授权 使 用 。 
它 可 以 被 认为 是 Hadoop 的 实时 处 理 系 统 ， 也 就 是 说 ， 它 是 用 于 Hadoop 批量 处 理 的 
实时 处 理 。 


14.5.1 流 处 理 


Storm 可 用 于 实时 处 理 新 数据 流 和 更 新 数据 库 。 与 网 络 中 使 用 队列 和 工作 人 员 
进行 流 处 理 的 标准 方法 不 同 ，Storm 具有 容错 性 和 可 扩展 性 。Storm 集群 在 表面 上 类 
(WF Hadoop 集群 。 而 在 Hadoop E, i247 * Map/Reduce 作业 ”, 在 Storm 上 运行 
“拓扑 ”。“ 人 作业” 和 “拓扑 ”本 身 是 有 很 大 不 同 的 ， 一 个 关键 的 区 别 是 Map/Re- 
duce 作业 最 终 会 完成 ， 而 拓扑 会 永远 处 理 消 息 (或 直到 用 户 终 结 它 )。Storm 集群 
上 有 两 种 节点 : 主 节 点 和 工作 节点 。 主 节点 运行 一 个 名 为 “Nimbus” 的 守护 进程 ， 
类 似 于 Hadoop 的 “JobTracker”。Nimbus 负责 在 群集 周围 分 发 代码 ， 将 任务 分 配给 
机 器 并 监控 故障 情况 。 

每 个 工作 节点 均 运 行 一 个 称 为 “监管 者 ”的 守护 程序 。 监 管 者 监听 分 配给 其 机 器 
的 工作 ， 并 根据 Nimbus 分 配 启动 和 停止 它 的 工作 进程 。 每 个 工作 进程 执行 一 个 拓扑 的 
子 集 ， 运 行 的 拓扑 结构 包括 分 布 在 许多 机 器 上 的 工作 进程 。Nimbus 与 监管 者 之 间 的 所 有 
协调 都 是 通过 Zookeeper 集群 完成 的 。 此 外 ，Nimbus 和 Supervisor 守护 进程 都 是 快速 失 
败 和 无 状态 的 ， 所 有 状态 都 保存 在 Zookeeper 或 本 地 磁盘 上 。 这 意味 着 用 户 可 以 终结 -9 
Nimbus 或 监管 者 ， 他 们 会 像 没 有 发 生 任何 事情 一 样 重新 开始 。 这 种 设计 使 得 Storm 群集 
相当 稳定 。 我 们 已 经 有 拓展 并 运行 了 几 个 月 ， 没 有 进行 任何 维护 。 


14.5.2 SNODSOC 的 Twitter 风暴 


数据 加 载 模块 会 将 Twitter 用 户 数据 添加 到 基于 云 的 语义 Web 数据 库 中 。 对 于 这 部 
分 数据 ， 将 创建 Twitter 使 用 的 术语 词汇 。 这 个 词汇 表 是 进入 语义 Web 世界 的 最 简单 方 
法 。 词 汇 表 是 所 有 语义 Web 语言 中 最 不 具 表 现 力 的 ， 但 在 处 理 方面 却 是 最 有 效 的 。 首 
先 ， 为 那些 我 们 所 希望 使 用 的 数据 源 (如 Google Plus, LinkedIn 等 ) 构建 相应 的 词汇 
表 ， 然 后 根据 这 些 词汇 进行 一 定量 的 数据 自动 整合 。 我 们 的 最 终 目标 是 为 了 对 数据 进行 
复杂 的 推理 ， 后 来 将 这 些 词汇 细 化 为 更 复杂 的 本 体 ， 这 些 本 体 表现 得 更 加 丰富 ， 但 需要 
更 长 的 处 理 时 间 。Twitter Storm 将 为 实时 提取 、 位 置 挖掘 和 更 重要 的 新 类 检测 ， 提 供 一 
个 即时 处 理 推 文 和 其 他 社交 媒体 消息 的 框架 。 为 了 查询 语义 Web 数据 库 ， 需 要 对 14.2 
节 中 讨论 的 SPARQL 查询 处 理 程序 进行 审查 。 目 前 ， 我 们 正在 使 用 Twitter Storm 框架 来 
实施 SNODSOC。 我 们 还 在 使 用 Twitter Storm 框架 开发 第 二 个 社交 网 络 系统 ， 称 为 Storm- 
Rider, StormRider 将 在 第 15 章 讨论 。 
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14.6 相关 工作 





对 我 们 提出 的 方法 产生 影响 的 学 者 包括 Goyal, Katakis, Lin, Markou, Smith, 
Spinosa, Frigui, Backstrom 和 Wenerstrom 等 人 ( 见 本 章 参考 文献 [ GOYAO9 ] [KA- 
TA06]、[LINI1]、LMARK03]、[LSMITO1 ], [SPINOS], [ WENE06], [BACK08], 
[ FRIG0A ]) 。 

存在 许多 工具 ， 用 于 从 网 页 和 其 他 结构 化 文本 中 ， 进 行 实体 提取 和 位 置 识 别 。 虽 
然 这 些 检测 策略 的 一 些 细节 是 专用 的 ， 但 众所周知 ， 它 们 都 使 用 标准 的 自然 语言 处 
理 或 机 器 学 习 技 术 ， 也 假设 文本 是 结构 化 的 ， 并 且 包 含 具 有 正确 语法 的 完整 句子 。 
另 一 方面 ,我们 的 工作 重点 是 非 结 构 化 文本 ， 它 们 通常 是 与 社交 媒体 相关 联 的 但 语 
和 不 完整 的 句子 。 关 于 基于 云 的 流 挖 掘 和 新 类 检测 框架 ， 据 我 们 所 知 ， 对 于 以 云 为 
中 心 的 趋势 检测 工具 ， 目 前 并 没有 显著 的 商业 竞争 。 目 前 关于 趋势 检测 的 工作 
(Twitter Benjardusis 的 TwitterMonitor 和 Streaming Trend Detection 在 Twitter 中 ) 刚刚 开 
in, 并且 使 用 基于 关键 字 的 方法 而 不 是 选择 特征 向 量 。 另 外 ， 由 于 我 们 采用 了 模块 
化 的 方法 来 创建 工具 ， 可 以 分 别 以 迭代 的 方式 对 每 个 组 件 (趋势 分 析 、 实 体 提 取 、 
云 可 扩展 性 和 本 体 构建 的 新 类 检测 ) 进行 改进 。 我 们 用 于 开发 SNODSOC + + 的 所 有 
框架 和 工具 都 是 开源 的 ， 并且 已 经 在 以 前 的 研究 中 广泛 使 用 ， 因 此 我 们 的 工具 将 能 
够 适应 平台 中 的 任何 更 改 。 


































































































14.7 总 结 和 展望 





本 章 介 绍 了 SNODSOC 的 设计 。SNODSOC 对 于 必须 处 理 数 十 亿 个 博客 和 消息 的 分 析 
者 来 说 将 是 一 笔 巨 大 的 财富 。 例 如 ， 通 过 分 析 特 定 群体 的 行为 历史 ,分 析 者 将 能 够 在 不 
久 的 将 来 预测 行为 变化 ， 并 采取 必要 的 措施 。 这 一 研究 领域 将 刺激 新 的 社交 网 络 分 析 技 
术 ， 激 发 新 的 研究 领域 。 我 们 还 讨论 了 如 何 使 用 云 计算 来 实现 SNODSOC。 
新 博客 每 天 都 会 充满 网 络 空间 。 分 析 这 样 的 博客 并 更 新 现 有 的 分 类 模型 是 一 项 艰巨 
的 任务 。 大 多 数 现 有 的 行为 分 析 技术 是 手动 的 ， 需 要 几 天 才能 分 析 单 个 博客 示例 ， 并 提 
取 其 行为 概况 。 即 使 是 现 有 的 自动 化 技术 ， 也 只 是 在 一 小 部 分 训练 数据 样本 上 进行 了 测 
试 。 通 过 将 我 们 的 方法 与 云 计 算 框 架 相 结合 ， 克 服 了 这 一 障碍 ， 并 将 提供 高 度 可 扩展 的 
行为 建 模 工具 ， 从 而 在 检测 新 模式 方面 实现 更 高 的 准确 性 。 此 外 ， 现 有 的 分 析 (手动 
或 自动 ) 技术 还 不 能 发 现 博客 和 消息 的 演进 特征 。 因 此 ， 通 过 快速 响应 动态 环境 ， 我 
们 的 产品 将 比 其 他 基于 行为 的 产品 具有 更 大 的 优势 。 
虽然 SNODSOC 比 目 前 可 用 的 SNA 工具 有 了 很 大 的 改进 ,但 是 潜在 的 SNOD 技术 仍 
有 一 些 局 限 性 。 例 如 ，SNOD 缺乏 检测 同时 出 现 的 多 个 新 类 的 能 力 。 由 于 博客 和 消息 可 
能 具有 多 个 并 发 演进 ， 因 此 我 们 需要 一 个 可 以 检测 多 个 新 类 的 系统 。 因 此 ， 我 们 正在 扩 
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JE SNOD， 以 实现 更 强大 的 检测 策略 (SNOD + +) 来 解决 这 些 局 限 性 。 我 们 的 目标 
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开发 一 个 功能 齐全 、 功 能 强大 的 博客 分 析 系 统 SNODSOC + + 。 我 们 认为 ，SNODSOC 
+ + 将 是 一 个 社交 网 络 分 析 的 创新 ， 因 为 它 可 以 处 理 动 态 数据 、 改 变 模式 和 新 兴 类 的 动 
态 出 现 。 我 们 将 利用 我 们 的 云 计算 框架 开发 SNODSOC + + 。 基 于 SNOD 技术 的 初步 实 














验 ， 我 们 认为 SNODSOC 和 SNODSIC + + 都 将 提供 高 度 的 准确 怕 





PT 





、 可 实时 扩展 和 可 操作 


性 。SNODSOC + + 还 将 集成 工具 LOCEXT, ENTEXT 和 ONTCON ， 以 便 在 提取 的 语义 知 

















识 中 检测 出 高 精度 和 不 断 变化 的 模式 和 趋势 。 最 后 ， 使 用 我 们 的 云 计 算 框 架 ， 
出 用 于 挖掘 社交 网 络 数据 的 可 扩展 性 解决 方案 。 




















保护 社交 网 络 也 是 我 们 的 主要 目标 之 一 。 我 们 对 社交 网 络 的 安全 和 隐私 进行 了 一 些 
研究 〈( 见 本 章 参 考 文献 【CARMI1] ) 。 我 们 的 系统 必须 在 云 上 实施 ， 其 实施 的 第 一 步 
在 云 中 开发 有 保障 的 信息 共享 功能 。 我 们 将 在 第 七 部 分 讨论 这 方面 的 一 些 实验 系统 。 
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15.1 概述 


在 本 章 中 ,我们 将 论述 使 用 语义 Web 技术 的 另外 3 个 云 计算 实验 系统 。 第 一 个 称 
为 Jena - HBase 的 系统 ， 是 RDF 三 元 组 的 存储 系统 。 名 为 StormRider 的 第 二 个 系统 使 用 
Storm 框架 来 托管 云 中 的 社交 网 络 。StormRider 在 其 实现 中 还 使 用 了 Jena - HBase。 第 三 
个 系统 是 利用 Map/Reduce 框架 的 本 体 驱 动 查询 处 理 系统 。 我 们 还 描述 了 3 个 系统 背后 
的 动机 。 

第 一 ,缺乏 可 扩展 性 是 单机 RDF 数据 存储 所 面临 的 最 重要 问题 之 一 。 云 计算 的 出 
BY RDF 三 元 组 存储 的 分 布 式 生 态 系统 铺 平 了 道路 ， 这 些 存 储 可 以 允许 与 分 布 式 查询 
处 理 功能 一 起 实现 行星 级 存储 。 为 此 ， 我 们 介绍 了 Jena - HBase， 这 是 一 个 可 以 与 Jena 
框架 一 起 使 用 的 支持 三 元 组 存储 的 HBase。 Jena - HBase 为 最 终 用 户 提供 可 扩展 的 存储 和 
查询 解决 方案 ,支持 RDF 规范 中 的 所 有 功能 。 

第 二 ， 在 线 社交 媒体 提供 商 的 重点 已 经 从 “内 容 生 成 ”转向 寻找 “内 容 存储 、 检 
索 和 分 析 ” 的 有 效 方法 ， 因 为 要 适应 不 断 发 展 的 网 络 。 为 此 ， 我 们 提出 了 StormRider, 
该 框架 使 用 现 有 的 云 计算 和 语义 Web 技术 ， 为 应 用 程序 员 提 供 对 这 些 任务 的 自动 化 文 
持 ， 从 而 可 以 在 底层 不 断 发 展 的 社交 网 络 中 ， 实 现 更 加 丰富 的 用 例 分 类 。 

第 三 ， 鉴 于 需要 高 度 分 布 和 联合 的 架构 ， 强 大 的 查询 扩展 对 信息 检索 的 性 能 有 很 大 
的 影响 。 我 们 使 用 不 同 的 加 权 技 术 ， 来 确定 本 体 驱 动 的 查询 扩展 术语 。 为 此 ,我 们 考虑 
每 个 单独 的 本 体 和 用 户 所 查询 的 关键 字 ， 以 使 用 包括 中 介 度 量 ( Betweenness Measure, 
BM) 和 语义 相似 性 度量 (Semantic Similarity Measure, SSM) 在 内 的 多 种 语义 测度 来 确 
定 基 本 扩展 术语 (Basic Expansion Terms，BET)。 我 们 开发 了 一 个 Map/Reduce 分 布 式 算 
法 ， 用 于 计算 本 体 图 中 的 所 有 最 短路 径 。 Map/Reduce 算法 将 大 大 提高 大 型 本 体 的 BET 
计算 效率 。 

本 章 的 结构 如 下 : 在 15.2 节 讨 论 Jena - HBase; StormRider 在 15.3 节 中 讨论 ; 第 
15.4 节 讨 论 使 用 Map/Reduce 实现 的 本 体 驱 动 查询 处 理工 具 ; 15.5 节 总 结 本 章 。 本 章 内 
容 如 图 15. 1 所 示 。 
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基于 语义 Web 的 
云 计 算 实验 系统 








Jena—HBase StormRider 联合 查询 扩展 











图 15.1 基于 语义 Web 的 云 计算 实验 系统 


( 源 自 : Khadilkar, V. , M. Kantarcioglu, and B. Thuraisingham, StormRider. Harnessing “Storm” for social networks. 
Technical report, 543 —544, 2012. http; //www. utdallas. edu/vvk072000/ Research/StormRider/tech — report. pdf) 


15.2 Jena -HBase: 分 布 式 、 可 扩展 和 高 效 的 RPDF 三 元 组 存储 











存储 RDF 三 元 组 的 最 简单 方法 是 把 3 列 组 成 关系 / 表 ， 每 列 用 于 主体 、 谓 词 和 客 


体 。 然 而 ， 这 种 方法 由 于 缺乏 可 扩展 性 和 简化 了 查询 性 能 ， 
时 ， 单 个 表 变 得 又 长 又 窗 〈 见 本 章 参考 文献 【ERET09 ] ) 。 该 方法 不 可 扩 

















当 RDF 三 元 组 的 数量 增加 


表 通 常 位 于 单个 机 器 上 。 云 计算 模式 使 并 行 实现 多 台 机 器 的 处 理 能 力 成 为 可 能 。Hadoop 
和 HBase 等 工具 提供 了 比如 容错 和 实时 查询 优化 等 优点 。 在 本 节 中 ， 我 们 介绍 Jena - 
HBase， 一 个 HBase 支持 的 三 元 组 存储 ， 可 以 与 Jena 框架 一 起 使 用 ， 并 对 我 们 的 原型 进 
行 初步 的 实验 评估 。 

我 们 的 工作 重点 是 创建 分 布 式 RDF 存储 框架 ， 从 而 减轻 单机 系统 存在 的 扩展 性 问 


题 。 选 择 Jena fi 


的 功能 。 此 外 ， 
































E 架 的 动机 是 它 已 被 广泛 接受 ， 它 内 置 支 持 操纵 RDF 数据 以 及 用 
HBase 被 选择 用 于 存储 层 ， 原 因 有 两 个 : (DHBase 是 一 个 面向 列 


























F 发 本 体 
的 存储 ， 


一 般 来 说 ， 一 个 面向 列 的 存储 性 能 要 优 于 行 的 存储 性 能 ; @Hadoop 包括 存储 数据 的 分 


布 式 文件 系统 HDFS 和 用 于 处 理 存 储 在 HDFS 中 数据 村 





匡 架 的 Map/Reduce, HBase 使 用 


HDFS 进行 数据 存储 ， 但 不 需要 Map/Reduce 来 访问 数据 。 因 此 ，Jena - HBase 不 需要 实 
现 基于 Map/Reduce 的 查询 引擎 来 执行 对 RDF 三 元 组 的 查询 。 相 反 ， 使 用 基于 Map/Re- 
duce 的 查询 引擎 来 处 理 RDF 数据 的 现 有 系统 能 优化 查询 性 能 。 然 而 ， 目 前 它们 无 法 支 





持 RDF 规范 中 的 所 有 功能 。 我 们 开发 Jena - HBase 的 动机 是 想 为 最 终 | 
RDF 存储 和 查询 API， 以 支持 RDF 规范 中 的 所 有 功能 。 












































j 户 提供 基于 云 的 


Jena - HBase 提供 以 下 功能 : 针对 HBase 中 各 种 定制 的 RDF 数据 存储 布局 ， 在 查 
询 性 能 /存储 方面 提供 了 权衡 ; @ 通 过 适当 的 Jena 接口 的 实现 来 支持 具体 化 、 
SPARQL 处 理 。 图 15. 2 是 对 Jena - HBase 所 采用 架构 的 概述 。Jena - HBase 使 用 存储 的 
概念 在 底层 HBase 表 上 提供 数据 操作 功能 。 一 个 存储 代表 单个 RDF 数据 集 ， 并 且 可 以 





由 几 个 RDF 图 组 成 ， 每 个 RDF 图 












































推断 和 


都 有 自己 的 存储 布局 。 布 局 使 用 几 个 不 同 模式 的 


HBase 表 来 存储 RDF 三 元 组 ， 每 个 布局 在 查询 性 能 /存储 方面 均 提 供 了 权衡 。RDF 图 上 
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Jac db T383twWebü5zeib- Reus X e (O0) 
的 所 有 操作 都 将 隐 式 转换 为 底层 布局 的 操作 。 这 些 操作 包括 : 中 格式 化 布局 ， 即 删除 所 
有 三 元 组 同时 保留 表 (格式 化 块 ); @) 将 三 元 组 装载 到 布局 中 (装载 程序 块 ) ; OAM 
与 给 定 (S, P, O) 模式 (Query Runner block) 匹配 的 三 元 组 的 布局 ;由 附加 操作 包 
括 : 维护 HBase 连接 (连接 块 ) 和 维护 每 个 RDF 图 (配置 块 ) 的 配置 信息 。 


Jena-HBase 存储 
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布局 3- 索 引 布局 4 — 垂直 分 隔 和 索引 


图 15.2 Jena- HBase 架构 
( 源 自 : Khadilkar, V. , M. Kantarcioglu, P. Castagna， 和 B. Thuraisingham, Jena - HBase: A distributed, 





scalable and effcient RDF triple store. Technical report, 2012. 
http: //www. utdallas. edu/ ~ vvk072000/ Research/ Jena — HBase — Ext/tech — report. pdf) 














我 们 已 经 使 用 SP* Bench ( 非 参考 查询 ) ( 见 本 章 参考 文献 [POTA09]) 和 LUBM ( 推 
理 查 询 ) ( 见 本 章 参考 文献 [BRAN01]) 进行 基准 测试 ， 以 确定 Jena - HBase 中 目前 可 用 
的 最 佳 布局 ， 并 将 最 佳 布局 的 性 能 与 Jena TDB 进行 比较 。 我 们 将 Jena - HBase 仅 与 Jena 
TDB 进行 比较 ， 而 不 是 与 其 他 基于 Hadoop 的 系统 进行 比较 ,原因 如 下 : (DJena TDB 提供 
了 所 有 可 用 的 Jena 存储 子 系统 的 最 佳 查询 性 能 ; @ 可 用 的 基于 Hadoop 系统 没有 实现 RDF 
规范 中 的 所 有 功能 。 作 为 确定 最 佳 布 局 过 程 的 一 部 分 ， 我 们 在 几 个 不 同 图 表 规 模 上 运行 了 
两 个 基准 测试 ， 我 们 的 结果 在 本 章 参 考 文献 [KHAD12a] 、 [KHADI2b] 中 给 出 。 由 于 
LUBM 包含 推理 查询 ， 因 此 我 们 使 用 “Pellet 推理 器 ”(v2. 3.0) 执行 推理 。 



















































































15.3 StormRider: 利用 社会 网 络 的 “Storm” 





社交 媒体 应 用 程序 的 兴起 ,已 经 将 曾经 的 特权 领域 一 一 Web 创作 和 发 布 变 成 了 一 

个 常见 的 活动 。 这 导致 在 线 用 户 生成 内 容 的 数量 爆炸 式 增长 。 社 交 媒 体 提 供 商 的 主要 关 

注 点 不 再 是 “内 容 生成 ”， 而 是 寻找 “内 容 存储 、 检 索 和 分 析 ” 的 有 效 方法 。 现 在 已 经 

有 了 大 量 的 研究 (例如 本 章 参考 文献 [ERET09] ) 来 解决 这 个 问题 。 然 而 ， 现 有 的 工 

作 将 网 络 视 为 一 系列 快照 ， 这 里 的 快照 表示 给 定时 间 段 内 网 络 的 状态 。 因 此 ， 需 要 在 每 
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个 快照 上 单独 执行 不 同 的 网 络 操作 。 实 际 上 
络 操作 应 该 随 着 它们 的 发 
建 一 个 解决 方案 ， 支 持 先 进 的 现实 世界 的 用 


























展 而 自动 发 展 。 此 


， 在 线 社交 网 络 是 不 断 发 展 的 实体 ， 所 以 网 
外 ， 从 这 个 角度 来 看 竺 问题， 可 以 让 我 们 创 
fil, n: 由 跟踪 给 定 节点 的 邻 域 ,这 种 用 例 





和 法 律 实施 方面 是 相关 的 。 例 如 ， 跟 踪 潜 在 的 罪犯 / 怒 怖 分 子 的 活动 ， @ 能 够 存储 和 访 
问 网 络 的 先前 快照 ， 以 进行 审计 和 验证 任务 。 这 样 的 用 例 与 医疗 保健 中 是 相关 的 ， 例 











如 ， 在 跟踪 患者 的 病史 方面 。 
在 本 节 中 ， 我 们 介绍 StormRider, AA 

对 不 断 变化 6 

Rider 中 提供 的 自 





























网 络 的 发 展 而 自动 存储 、 查 询 和 分 析 数 据 ， 


的 计算 系统 ， 保 证 了 消息 处 理 的 可 扩展 性 、 
( 见 本 章 参 考 文献 [KHADI2a]) 允许 将 网 络 数据 以 一 个 RDF 表示 





EAR EASE Zs A 
的 社交 网 络 进行 存储 、 检 索 和 分 析 。 此 外 ， 用 户 可 以 通过 实现 创建 Storm- 
定义 接口 ， 来 在 它们 选择 的 网 络 上 执行 这 些 操 作 。StormRider 框架 使 用 
以 下 现 有 工具 作为 基本 构建 模块 (DStorm 卡 








I 语义 Web 工具 的 结合 ， 以 便 








EHE IF StormRider 随 着 时 间 的 推移 和 底层 
Storm 之 所 以 被 选中 , 是 因为 它 是 一 个 实时 

可 靠 性 和 容错 能 力 。@)Jena - HBase 框架 
形式 来 存储 ， 并 使 用 








SPARQL 查询 数据 。@)Apache HBase 用 于 构建 物理 视图 ， 存 储 与 网 络 中 节点 相关 的 元 数 
据 ， 这 些 视图 能 够 在 网 络 上 执行 更 快 的 分 析 。 

StormRider 提供 以 下 新 的 贡献 Dena - HBase 框架 有 助 于 使 用 如 推理 算法 、 验 证 
等 社交 网 络 应 用 中 的 几 种 语义 Web 功能 ; GO Ef HIE Storm 中 实现 的 新 算法 (例如 ， 
用 于 中 心性 估计 的 近似 算法 ) 来 存储 、 查 询 和 分 析 ， 促进 网 络 不 断 发 展 ;， @ DA 






































员 提 供 了 简单 的 接口 ， 通 过 它们 可 以 与 他 们 





选择 的 社交 网 络 进 行 交互 。 


15.3 给 出 了 StormRider 的 架构 情况 。 用 户 应 用 程序 与 抽象 的 社交 网 络 模型 











(Model - SN) 进行 交互 ， 该 模型 将 
转换 为 StormRider 所 使 用 的 低级 操作 ， 这 种 





高 级 用 户 定 义 的 网 络 操作 ( 即 存储 、 查 询 和 分 析 )， 














所 级 操作 是 基于 底层 网 络 表 示 的 。 低 级 操作 
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StormRider 架构 


BS 37-38 3 Web65-z H- 350 D I x ( 
实施 由 Storm 拓扑 完成 ， 旨 在 支持 不 断 发 展 的 社交 网 络 。Storm 拓扑 表征 一 个 计算 图 ， 
其 中 节点 包含 计算 逻辑 ， 节 点 之 间 的 链接 表明 数据 如 何 从 一 个 节点 传递 到 另 一 个 节点 。 
Storm 内 部 通过 HBase 视图 接口 与 存储 层 (Jena - HBase) , Jena - HBase 接口 和 视图 层 
( HBase 表 用 作物 化 视图 ) 进行 内 部 连接 ， 以 在 底层 网 络 上 执行 拓扑 。 

由 Jena - HBase 组 成 的 存储 层 ， 用 于 在 基于 云 的 框架 中 的 RDF 表示 中 存储 网 络 。 与 
Storm 中 定义 的 拓扑 结合 使 用 时 ，RDF 中 的 网 络 存储 支持 先前 给 出 的 实际 用 例 及 其 具体 化 
工作 ， 这 中 间 需 要 使 用 比如 属性 路 径 查 询 等 概念 。 有 关 Jena - HBase 的 更 多 详细 信息 ， 有 
兴趣 的 读者 可 参考 我 们 更 加 详细 的 技术 报告 ( 见 本 章 参考 文献 【KHAD12a] ) 。 视 图 层 用 
于 存储 组 成 网 络 中 节点 的 元 数据 。 元 数据 主要 用 于 在 分 析 网 络 期 间 促 进 性 能 的 提升 。 

该 架构 的 附加 细节 ， 以 及 Twitter 网 络 的 示例 添加 、 查 询 和 分 析 拓扑 的 详细 描述 在 本 章 参 
考 文献 [KHAD12c] 中 给 出 。 需 要 注意 的 是 ， 这 些 拓扑 仅 作为 StormRider 框架 的 示例 被 提 
供 。 因 此 ， 应 用 程序 员 需 要 根据 自己 的 要 求 自 定义 拓扑 ， 以 便 与 要 审查 的 网 络 进行 交互 。 

StormRider 中 的 示例 拓扑 已 经 在 Twitter 中 实施 。 添 加 拓扑 用 于 向 存储 层 添加 数据 ， 
以 及 更 新 视图 层 中 节点 的 相关 信息 。 然 后 使 用 分 析 拓 扑 调 用 视图 层 中 的 元 数据 来 计算 节 
点 的 度 、 亲 密度 和 中 间 度 。 这 些 度量 中 有 一 些 需 要 使 用 基于 地 标的 近似 技术 ( 见 本 章 
参考 文献 [ POTA09 ] ) 进行 最 短路 径 计 算 。 作 为 我 们 实验 评估 的 一 部 分 ， 对 最 多 
500000 个 Twitter 用 户 计算 了 他 们 的 亲密 度 和 中 间 度 ， 评 估 了 这 种 方法 的 有 效 性 与 本 章 
参考 文献 [BRAN01] 中 给 出 方法 的 确切 性 。 地 标 集 中 的 节点 数 被 设置 为 (总 用 户 
数 ) / 100， 其 中 因子 100 被 随机 选择 ， 而 地 标 集中 的 元 素 被 选 为 具有 最 高 度 的 顶端 天 
个 节点 。 最 后 ， 每 个 实验 围绕 以 下 方面 进行 : 中 近似 误差 ， 该 度量 参数 用 来 测量 Storm- 
Rider 在 计算 中 心 度 值 与 准确 方法 时 的 准确 性 ， 并 计算 为 |1-1|， 其 中 1 是 实际 中 心 值 ， 
/是 近似 值 ; @) 执 行 时 间 ， 该 度量 参数 用 来 测量 进行 中 心 值 的 近似 和 精确 计算 所 需 的 时 
间 。 近 似 情况 的 时 间 计 算 为 更 新 视图 所 需 时 间 和 执行 实际 中 心性 计算 所 需 时 间 的 总 和 。 
我 们 的 实验 结果 在 本 章 参 考 文献 [KHADI2e] 和 [KHADI2d] 中 给 出 。 

请 注意 ,在 第 14 章 中 ,我们 描述 了 在 云端 运行 的 社交 网 络 SNODSOC 的 设计 。 
SNODSOC 利用 Twitter Storm 实现 云 。 目 前 ，SNODSOC 和 StormRider 是 在 不 同 项 目 上 单 
独 开发 的 两 个 独立 系统 。 未 来 ， 我 们 将 探讨 SNODSOC 5 StormRider 的 集成 。 


15.4 使 用 Map/Reduce 框架 进行 本 体 驱 动 的 查询 扩展 


分 布 式 和 并 行 计 算 会 持续 解决 联合 架构 中 许多 Web 应 用 程序 的 效率 问题 。 由 于 数 

据 应 用 程序 在 这 种 架构 中 使 用 分 布 式 数据 源 ， 因 此 需要 大 量 的 原始 用 户 查 询 ， 并 通过 查 
询 扩 展 来 弥补 用 户 查 询 和 所 需 信 息 之 间 的 差距 。 许 多 研究 人 员 的 目标 是 区 分 不 同 的 扩展 
项 ， 提 高 查询 扩展 的 鲁 棒 性 。 在 我 们 以 前 的 工作 ( 见 本 章 参 考 文献 [ ALIP10a]) 中 ， 
开发 了 一 种 用 于 本 体 驱 动 的 查询 扩展 的 新 的 加 权 机 制 ， 称 为 BET 和 新 的 扩展 项 (New 
Expansion Terms, NET) 。 对 于 每 个 用 户 查 询 ， 基 于 一 些 度量 ， 即 语义 相似 性 、 密 度 和 中 
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间 性 ， 来 计算 每 个 本 体 中 的 BET. NET 的 确定 是 通过 对 齐 本 体 ， 来 确定 不 同 本 体 之 间 的 
健壮 扩展 项 。 使 用 本 体 图 中 的 最 短路 径 计算 ,来 定义 BET 度量 。 通 过 本 体 图 中 的 每 个 
实体 ， 找 到 最 短路 径 的 数量 ， 这 个 问题 对 于 大 本 体 来 说 是 不 实际 的 。 因 此 ， 在 本 节 中 ， 
为 了 计算 BET， 我 们 将 重点 介绍 每 个 拓扑 中 的 Map/Reduce 算法 。 更 多 细节 参见 本 章 参 
考 文献 [ ALIPIOa], [ ALIP10b ] 、 [ ALIP11a] 、 [ ALIP11b | 、 [ ALIPI2a ] 和 
[ ALIP12b] 。 我 们 的 查询 扩展 架构 如 图 15.4 所 示 。 























Al15.4 查询 扩展 架构 


15.4.1 使 用 Map /Reduce 分 布 式 方法 对 BET 计算 


在 我 们 的 BET 计算 〈 见 本 章 参 考 文献 [ERET09]) 中 ， 我 们 使 用 BM、 中 心性 、 密 

度 测度 (Density Measure, DM) 和 SSM EE, 为 此 ， 首 先 我 们 使 用 每 个 本 体 中 的 BM 来 
确定 中 心 实 体 (Central Entity, CE), 接 下 来 ， 我 们 使 用 CE 并 对 BET 中 的 每 个 扩展 项 计 
SSM, 在 BM 和 SSM 度量 中 ,我 们 需要 按照 如 下 方式 ， 确 定 每 个 本 体 的 不 同 实体 之 间 
的 最 短路 径 。BM 和 CE: 在 计算 扩展 项 时 ， 中 间 性 (BM) 体现 为 通过 本 体 图 中 每 个 节 
点 的 最 短路 径 数 。 为 了 扩展 用 户 项 ， 出 现在 许多 最 短路 径 上 的 节点 被 认为 是 每 个 本 体 
( 见 本 章 参考 文献 [ERETO9]) 的 中 心 关 键 字 。 Se, e60, BM (e) 是 实体 e 的 BM。 

shortestpath( e, ,e;) passinge 

MOS 24 CES : di 

SSM 中 用 于 查找 BET 的 中 心 关 键 字 由 BM 确定 。 中 心 关 键 字 具有 最 高 的 BM fH, SSM: 
SSM 使 用 本 体 图 作为 域 的 语义 表示 ， 以 确定 每 个 本 体 中 所 有 扩展 项 的 权重 。 靠近 中 心 节点 
的 实体 有 更 多 的 权重 。 使 用 最 短路 径 度 量 计算 SSM。 实 体 如 果 有 更 多 的 共同 关系 ， 它 们 就 
越 接近 本 体 ( 见 本 章 参 考 文献 [ERET09] ) 。 任 何 实体 如 果 位 于 距离 中 心 节 点 相对 较 远 的 
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Biss 37-38 X Web65-z- 8.5038 X £c (7) 








位 置 ， 则 它 的 权重 较 小 。 因 此 ， 我 们 使 用 最 短路 径 这 个 参数 作为 本 体 词汇 的 权重 。 
今 实体 £j, CE O,, 并 且 在 c (中 心 ) 和 e 之 间 存 在 路 径 。 











1 
: ce, 
SSM(c, e;) = length ( minpath ) ( c ,e;) d (15.2) 
1 c =e, 








在 这 种 方法 中 ，BET 是 从 中 心 关键 字 到 。 的 最 短路 径 中 的 所 有 实体 。BM 和 SSM 计 
算 中 的 最 短路 径 ， 由 宽度 优先 搜索 (Breadth First Search, BFS) 确定 。 给 定 本 体 图 中 的 
TALAF b 和 图 形 深 度 4， 渐 近 空 间 和 时 间 复 杂 度 就 是 最 深层 次 的 节点 数 ，0 (07) 是 
指数 级 的 。 对 于 大 的 本 体 ， 最 短路 径 计 算是 不 实际 的 。 因 此 ， 在 下 一 节 中 ,我 们 将 介绍 
Map/Reduce 分 布 式 算法 ， 以 优化 联合 查询 扩展 。 
15.4.1.1 使 用 和 迭代 Map /Reduce 算法 的 最 短路 径 计 算 

Map/Reduce 编程 模型 是 一 个 强大 的 接口 ， 可 以 用 于 大 规模 计算 的 自动 并 行 化 和 分 
Wo. 在 此 模型 中 ， Map 和 Reduce 函数 定义 如 下 : 


Map( < UM poy s yae > ) 一 < out ,,, , intermediate ,,,,, > list 


























Reduce( < Out ,,, , intermediate ,,,,, > list) out ulist (15.3) 

来 自 数据 源 的 数据 ， 以 数据 对 «inus, Myn > 的 方式 输入 到 Map 函数 中 。 从 输入 开 

始 ， 经 过 outi, ，Map 函数 产生 一 个 或 多 个 中 间 值 。 在 Map 阶段 之 后 ， 任 何 给 定 out, 的 

所 有 中 间 值 都 组 合成 一 个 列表 。 针 对 同一 个 outi,， 规 约 功 能 将 intermediate pp 214 I — 

个 或 多 个 最 终 值 。 在 我 们 的 BET 计算 中 ,使 用 图 15.5 所 示 的 本 体 图 作为 系统 的 输入 。 
本 体 图 需要 从 图 到 邻接 列表 的 转换 ， 以 供 映射 函数 使 用 。 



























































到 15.5 ”卡尔 斯 鲁 厄 (Karlsruhe) 书目 本 体 论 


Valu 


步骤 1: 给 定 本 体 0,， 该 算法 为 每 个 实体 e, e O, PATE TEFL, BET e; 均 被 认为 是 
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in; 对 于 每 个 实体 。， 我 们 首先 确定 e; 的 邻居 ， 并 将 它们 存储 为 与 该 实体 相连 的 ， 以 
逗号 分 隔 的 邻居 列表 (Neighbour List，NL)。 我 们 还 指定 了 每 个 实体 的 源 距 离 ( Dis- 
tance From Source，DFS)、 源 路 径 (Path From Source, PFS) 和 颜色 。 每 个 实体 有 3 个 
可 能 的 实体 颜色 (Entity Color，EC) 。 源 实体 用 灰色 定义 ， 而 访问 实体 用 黑色 定义 ， 而 
非 访问 实体 用 白色 定义 。 对 源 实体 ,我们 定义 DES =0， 对 于 其 他 实体 ， 定 义 DES = 
Int. Maxval ， 因 为 我 们 对 源 实 体 使 用 BFS。 还 有 ， 对 于 源 实体 ， 源 的 PFS = IN pey > 而 其 他 
实体 的 PFS HE, NL, DFS, PFS 和 EC 的 连接 被 认为 是 i,,,,,， 并 作为 映射 函数 的 值 。 
考虑 图 15.5 本 体 图 ， 假 设 MasterThesis 是 图 中 的 源 实体 ; 因此 ， 一 些 示例 的 键 和 值 是 
(Masterthesis, Thesis|O | Mastertbesis| Gray"), 



































(Author, Publication, AcademinStaff| Int. Maxval|-| White"), 
(Report Publication|Int. Maxval|-| White"), 


(Thesis, Publication|Int. Maxval|l-| White") 
步骤 2: 在 此 步骤 中 ， 映射 器 为 in,, 中 的 每 个 源 实体 生成 intermediate ,,,,,. ET AA 
灰色 的 本 体 图 中 的 每 个 源 实体 Si， 映 射 器 首先 将 其 颜色 更 改 为 黑色 。 然后 ， 它 基于 DFS 
=DFS +1 的 邻居 数 创 建 一 些 新 的 节点 . 那么 ，PFS = IM toy U in, sod 和 color = Gray, H F 
映射 器 没有 关于 新 节点 的 下 一 个 邻居 的 信息 ， 所 以 它 将 下 一 个 邻居 视 为 空 。 此 外 ， 它 假 
定 非 灰色 节点 的 PFS = “ - ", 回 到 我 们 的 例子 ,下 面 是 第 一 次 迭代 后 的 结果 : 
(Masterthesis; Thesis|0|Masterthesis|Black”) 












































(Thesis, Null\\|Masterthesis—Thesis|Gray”), 
(Author, Publication, AcademinStaff |Int.Maxval|-|White”), 
(Report Publication|Int. Maxval|-| White"), 


(Thesis; Publication| Int. Maxval|-| White"). 

步骤 3: 在 此 步骤 中 ， 规 约 器 (Reducer) 使 用 一 个 outi, 和 所 有 intermediate ,,,,, HY £1 
R, KARZH oui,,,。 每 个 Reducer 都 使 用 每 个 Key 的 所 有 intermediate pe, Ff (EFA 
边缘 的 “Not - Nul” 列 表 、 最 小 DFS、PFS 的 “Not - Null” 值 和 最 暗 颜 色 来 构建 一 个 
新 节点 。 也 就 是 说 ， 对 于 上 面 的 例子 ， 有 

(Thesis; Publication|1|Masterthesis—Thesis|Gray”’). 

在 规约 步骤 3 中 的 intermediatey,, 之 后 ， 该 算法 将 继续 进行 下 一 个 迭代 ， 以 探索 第 2 
步 中 的 新 的 灰色 节点 。 该 迭代 继续 ， 直 到 它 遍 历 了 所 检查 的 每 个 源 的 所 有 可 能 路 径 ， 并 
且 所 有 节点 均 变 为 黑色 。 
15.4.1.2 使 用 Map /Reduce 计算 的 中 间 性 和 中 心 度 测 度 

在 BET 计算 中 ， 首 先 ， 对 于 每 个 q; € qUerY,, od > 我 们 计算 BM 测度 。 其 次 ， 我 们 确 
定 所 有 查询 关键 字 中 的 中 心 query, (Eq) 。 如 上 一 节 所 述 ， 在 每 次 迭代 中 ， 中 间 值 
被 更 新 的 同时 PFS 被 确定 。 对 于 每 个 qi 的 中 间 性 ， 在 Map/Reduce 步骤 的 最 后 一 次 迭代 
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Bie BPE 3XWeb65z sexe X sc (7) 


中 ， 我 们 能 够 发 现 g, 出 现在 本 体 中 实体 之 间 的 最 短路 径 中 的 次 数 。 在 确定 了 BM (q) 
之 后 ， 我 们 指定 中 间 性 的 最 大 值 为 9;,， 并 作为 中 心 关 键 字 。 
15.4.1.3 使 用 Map/Reduce 算法 的 SSM 

我 们 使 用 上 一 节 的 CE， 并 计算 所 有 BET 的 SSM. 对 于 SSM 计算 ， 我 们 使 用 算法 1 
中 描述 的 Map/Reduce - ShortestPath (MRSP) 算法 的 结果 。 在 第 2 行 和 第 3 行 中 ， 该 算 
法 使 用 MRSP 和 SSM, (EH Map/Reduce - ShortestPath , 并 为 每 个 实体 返回 SSM e BET, 
算法 1: 使 用 Map/Reduce 计算 的 SSM 
输入 : BET {b,, 6,, «+, b,}, CE 和 本 体 0 
输出 : 每 个 5, 的 SSM 
1. For all b; € B do 
2. MRSP = Map/Reduce - ShortestPath result (6, ) 


1 
~ lengthofMRSP 

































































3. SSM (b,) 


4. end for 


5. return SSM (5) 


15.5 总 结 和 展望 











在 本 前 中 ， 我 们 描述 了 3 个 各 自 基于 云 的 虚拟 Web 数据 管理 实验 系统 。 第 一 个 系 
统 将 分 布 式 RDF 存储 框架 与 现 有 的 云 计算 工具 进行 集成 ， 从 而 实现 可 扩展 的 数据 处 理 
解决 方案 。 与 单机 RDF 存储 框架 (BI Jena TDB) 相 比 ， 我 们 的 解决 方案 将 查询 执行 时 
间 开 销 保持 在 合理 范围 之 内 。 接 下 来 ,我们 介绍 了 StormRider 框架 ， 该 框架 使 用 现 有 云 
计算 和 语义 Web 技术 的 新 颖 组 合 ， 来 实现 对 不 断 发展 的 在 线 社交 网 络 的 “存储 、 检 索 
和 分 析 ”， 从 而 支持 几 种 新 的 、 现 实 的 使 用 案例 。 最 后 ， 我 们 讨论 了 云 中 的 本 体 驱 动 的 
查询 扩展 系统 。 

还 有 很 多 领域 等 待 进一步 研究 。 首 先 ， 需 要 对 我 们 的 系统 进行 广泛 的 实验 ， 看 它们 
是 否 可 以 扩展 。 接 下 来 ， 需 要 开发 运行 在 云 上 的 更 强大 的 算法 。 最 后 ， 需 要 用 一 些 现实 
世界 的 例子 来 测试 我 们 的 系统 。 
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第 四 部 分 总 结 


第 三 部 分 讨论 了 云 计算 概念 ， 相 应 地 ， 第 四 部 分 讨论 了 云 计算 实验 系统 , 这 些 是 我 
人 
车 第 13 章 中 ， 我 们 提出 了 一 个 能 够 处 理 大 量 RDF 数据 的 框架 。 由 于 这 个 框架 是 基 
于 Hadoop 的 ， 它 是 一 个 分 布 式 、 高 度 容 错 的 系统 ， 疡 具有 很 高 的 可 扩 及 性。 为 了 增加 
系统 的 容量 ， 需 要 做 的 所 有 工作 就 是 向 Hadoop 集群 添加 新 的 节点 。 我 们 开发 了 一 种 存 
fit RDF 数据 的 模式 和 一 种 算法 ， 来 确定 一 个 查询 处 理 方案 ， 以 回应 SPARQL 查询 。 
第 14 章 描述 了 SNODSOC 的 设计 。SNODSOC 是 一 种 基于 我 们 开发 的 数据 挖掘 算法 
的 社交 网 络 系统 ， 称 为 SNOD (基于 流 的 新 颖 类 检测 ) SNODSOC 对 于 必须 处 理 数 十 亿 
个 博客 和 消息 的 分 析 者 来 说 ， 将 是 一 个 巨大 的 财富 。 例 如 ， 通 过 分 析 特 定 群 体 的 行为 历 
史 ， 分 析 者 将 能 够 在 不 久 的 将 来 预测 其 行为 变化 ， 并 采取 必要 的 措施 。 
第 15 章 描 述 了 我 们 开发 的 3 种 基于 云 的 工具 。 第 一 ， 我 们 提出 了 StormRider， 这 是 
一 个 使 用 现 有 云 计 算 和 语义 Web 技术 的 新 颖 组 合 的 框架 ， 人 允许 对 不 断 发 展 的 在 线 社交 
网 络 进行 “存储 、 检 索 和 分 析 ”， 从 而 支持 几 种 新 的 、 现 实 的 用 例 。 第 二 ,我们 表明 ， 
a ain d RDF 存储 框架 ， 可 以 获得 可 扩 展 的 数据 处 理解 决 广 
。 此外， 与 单机 RDF 存储 框架 相 比 ， 我 们 的 解决 方案 保持 合理 的 查询 执行 时 间 开 销 。 
第 三 ， 我 们 讨论 了 云 中 的 基于 本 体 的 查询 扩展 。 
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第 五 部 分 云 计算 安全 概念 


第 五 部 分 简介 

我 们 已 经 给 出 了 云 计算 的 概述 ， 并 讨论 了 一 些 云 计算 实验 系统 ， 现 在 我 们 将 讨论 云 
的 安全 问题 。 具 体 来 说 ， 我 们 将 讨论 云 计算 安全 的 概念 、 功 能 、 准 则 和 产品 。 

第 五 部 分 由 6 章 组 成 : 第 16、17、18、19、20 和 21 章 。 第 16 章 将 概述 云 计算 安全 
概念 。 第 17 章 讨 论 云 计算 安全 的 功能 。 云 数据 管理 安全 是 第 18 章 的 主题 。 云 计算 安全 
指南 在 第 19 章 中 讨论 。 安 全 即 服务 的 概念 是 在 20 章 中 讨论 。 云 计算 安全 的 产品 在 第 21 
章 中 讨论 。 
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16.1 概述 


第 16 章 ” 云 计算 安全 概念 


为 许多 应 用 程序 部 署 云 ， 当 中 过 到 的 主要 障碍 之 一 就 是 安全 性 。 正 如 我 们 在 本 书 前 




















面部 分 所 讨论 的 那样 ， 通 过 云 计 算 ， 外 包 给 云 服务 提供 商 (Cloud Service Provider, 





CSP) 去 做 的 不 仅 是 加 工 处 理 ， 而 且 数 据 也 可 以 外 包 。 因 此 ， 许 多 组 织 不 愿 将 其 数据 放 
在 云 中 ， 尤 其 是 敏感 数据 。 即 使 在 云 中 存放 加 密 数据 ， 以 当前 技术 而 言 ， 在 对 数据 执行 
操作 之 前 必须 要 对 其 进行 解密 。 存 储 和 管理 任何 形式 的 未 加 密 数 据 ， 通 常 对 许多 组 织 














言 都 是 不 能 够 接受 的 。 因 此 ， 这 些 组 织 无 法 利用 云 进行 存储 数据 。 





由 于 这 些 挑战 ， 确 保 云 安全 已 经 成 为 许多 组 织 迫 切 的 需求 。 人 们 已 经 花费 了 大 量 资 


源 用 来 确保 云 安 全 。 在 本 章 中 ， 我 们 将 介绍 云 的 安全 问题 。 我 们 的 工作 受到 10 个 信息 
系统 安全 专业 (Certified Information Systems Security Professional, CISSP) 认证 模块 的 影 
响 ， 这 些 模块 涉及 安全 性 〈 见 本 章 参 考 文献 [HARRIO]), ， 同 时 ， 也 受到 马 瑟 (Math- 
e) 等 人 关于 云 安全 的 优秀 书籍 的 影响 。 特 别 地 ， 我 们 将 回顾 涉及 安全 概念 的 10 个 




















CISSP 模块 ， 并 审查 它们 是 否 适 合 于 云 。 这 些 模块 如 下 : 
B 信息 系统 安全 和 管理 











B 安全 架构 





B 安全 /访问 控制 模型 


B 加 密 
B 网 络 安全 











图 数据 和 应 用 











B 法 律 方 面 ， 














安全 
包括 隐私 和 取证 


W 业务 连续 性 规划 和 灾难 恢复 


B 物理 安全 
B 操作 管理 











本 章 的 结构 如 下 。16. 2 节 将 讨论 云 计算 的 安全 和 管理 。16. 3 节 将 讨论 云 计 算 的 安 
全 架构 。16. 4 节 将 讨论 云 的 访问 控制 和 身份 管理 。16. 5 节 将 讨论 云 的 数据 和 应 用 安全 
问题 。16. 6 节 讨 论 云 的 隐私 、 合 规 性 和 取证 。 密 码 解决 方案 将 在 16.7 节 中 讨论 。16. 8 
节 将 讨论 云 的 网 络 安全 问题 。 业 务 连续 性 规划 将 在 16.9 节 进 行 讨论 。 操 作 安全 性 将 在 


16.10 节 中 讨论 。 物 理 安 全 问题 将 在 16.11 节 讨 论 。 本 章 总 结 在 16. 12 节 中 给 出 。 图 
16. 1 说 明了 本 章 讨论 的 各 个 方面 。 
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) 去 计算 开发 与 安全 
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图 16.1 云 计算 安全 的 概念 


16.2 云 计算 的 安全 和 管理 


回想 一 下 ， 云 框架 是 由 3 个 主要 模型 组 成 。 它 们 如 下 : 

E SaaS: 软件 即 服 务 

Bl PaaS: 平台 即 服务 

Blass. 基础 设施 即 服务 

此 外 ,还 有 3 种 部 署 模式 。 它们 如 下 : 

图 公有 云 

B 私有 云 

Bias 

我 们 对 安全 问题 的 讨论 将 受到 第 四 部 分 讨论 中 的 云 框 架 和 部 署 模 型 的 影响 。 

如 本 章 参考 文献 [ MATHO9] 所 述 , IT 的 5 个 管理 层面 如 下 : 

B 网 络 

B 存储 

KS at 

B 

B 应 用 

对 于 内 部 的 部 署 托管 ， 组 织 机 构 可 以 控制 存储 、 服 务 器 、 服 务 和 应 用 程序 ， 同 时 提 
供 商 和 组 织 机 构 可 以 共享 对 网 络 的 控制 。 例 如 ， 对 于 内 部 部 署 托 管 ， 组 织 机 构 通常 将 购 
买 硬件 、 软 件 以 及 应 用 程序 。 因 此 ， 组 织 机 构 能 够 控制 这 些 资源 。 对 于 网 络 ， 组 织 机 构 
将 与 提供 网 络 服务 的 提供 商 合作 共同 来 完成 。 
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对 于 SaaS 模型 ， 其 所 有 层 都 由 提供 商 控制 。 这 是 因为 提供 商 在 托管 网 络 、 平 台 、 
基础 设施 和 应 用 程序 。 该 组 织 机 构 将 在 提供 商 的 基础 设施 和 软件 上 ， 运 行 提 供 商 提供 的 
应 用 程序 。 对 于 Iaas 模型 ， 应 用 程序 由 组 织 机 构 控 制 ， 而 服务 由 组 织 机 构 和 提供 商 共 
同 控制 。 这 是 由 于 要 托管 该 组 织 机 构 的 应 用 ， 就 必须 提供 一 些 服务 。 然 而 ， 提 供 商 提供 
如 存储 和 网 络 的 其 余 层 。 对 于 Paas 模型 ， 应 用 程序 和 服务 由 组 织 机 构 和 提供 商 控制 ， 
而 服务 器 、 存 储 和 网 络 由 提供 商 控 制 。 

云 的 安全 和 管理 涉及 的 其 他 方面 还 包括 风险 评估 。 部 署 云 的 第 一 步 是 分 析 其 所 涉及 
的 风险 。 这 将 是 由 独立 团队 进行 的 详细 风险 分 析 ， 包 括 评估 云 的 漏洞 。 如 果 要 在 公共 环 
SEPA, 那么 安全 风险 将 大 于 在 私有 环境 中 部 署 云 。 为 了 适用 于 云 ， 必 须 对 TT 系 
统 的 传统 风险 分 析 方 法 进行 审查 。 

管理 作为 男 一 个 方面 ， 指 的 是 为 云 制定 安全 策略 。 这 将 包括 与 这 些 CSP 相对 应 

织 的 角色 和 责任 的 定义 。 此 外 ， 必 须 明 确 阐 明和 记录 资产 管理 、 人 力 资源 安全 、 Kis 
境 安全 、 通信 和 和 运营 管理 、 访 问 控制 、 信 息 系统 获取 、 开 发 和 维护 、 信 息 安全 事件 管 
理 、 合 规 性 和 密 钥 管理 等 问题 。 例如 ， 访问 控制 管理 方面 包括 : 谁 应 有 访问 权 ， 为 什 
ZA? 资源 应 如 何 访问 ? 如 何 监 控 访 问 ? 以 及 增加 访问 控制 对 SaaS, PaaS 和 TaaS 的 影响 。 
这 些 方面 将 在 随后 的 章节 中 讨论 。 

标准 在 管理 IT 系统 的 安全 性 方面 也 起 着 重要 的 作用 。 这 包括 安全 管理 标准 ， 如 信 
息 技 术 基 础 设施 图 书馆 (Information Technology Infrastructure Library, ITIL) 和 国际 标准 
组 织 (International Standards Organization, ISO) 27001/27002。 这 些 标准 论述 了 安全 方 
面 的 策略 、 程 序 和 进程 ， 而 且 还 包括 可 用 性 管理 、 访 问 控 制 、 漏 洞 管理 、 补 丁 管理 、 配 
置 管理 事件 响应 和 系统 使 用 以 及 访问 监控 。 

总 之 , 为 了 信息 系统 的 管理 ,已 经 开发 了 若干 策略 、 x 标准 、 准 则 和 技术 。 为 
了 适用 于 云 ， 还 应 对 它们 进行 审查 和 最 大 化 的 扩展 。 此 外 ， 还 应 为 云 计 算 ， 开 发 适当 的 
风险 分 析 技 术 。 图 16. 2 说 明了 管理 包含 的 问题 。 


图 16.2 云 的 管理 问题 
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风险 分 析 








16.3 安全 体系 结构 
安全 体系 结构 由 系统 架构 的 安全 关键 组 件 组 成 。 例 如 ， 可 信任 计算 基 (Trusted 
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1 云 计 算 开 发 与 安全 








Computing Base, TCB) 是 一 个 计算 系统 ， 它 由 负责 执行 安全 关键 功能 的 部 分 系统 组 成 。 
引用 监视 器 是 实现 可 信 计 算 基 系统 的 一 部 分 。 为 了 适应 云 ， 我 们 需要 研究 这 些 概 念 。 具 
体 来 说 ， 我 们 需要 确定 云 关 于 laaS, Paas 和 SaaS 的 安全 架构 。 

云 的 安全 性 将 会 产生 不 同 层次 的 影响 ， 这 包括 网 络 、 主 机 和 应 用 程序 。 我 们 将 在 后 
面 的 部 分 论述 网 络 层 次 的 安全 问题 。 关 于 主机 安全 性 ，PaaS 和 SaaS 都 将 终端 用 户 的 主 
机 操作 系统 隐藏 起 来 。 也 就 是 说 ，SaaS 和 PaaS 中 的 主机 安全 责任 被 移交 给 CSP, Taas 
的 主机 层次 安全 性 是 虚拟 化 的 。 本 质 上 ， 它 处 理 虚 拟 机 管理 程序 层 的 安全 性 和 客户 操作 
系统 层 的 安全 性 。 

这 里 的 主要 问题 : 管理 程序 是 应 该 直接 监视 客户 操作 系统 ， 还 是 应 该 为 每 个 客户 操 
作 系 统 安装 一 个 监视 器 ? 如 果 管 


































































































理 程序 要 实时 监视 客户 操作 系统 ， 客户 操作 系统 客户 操作 系统 
则 管理 程序 代码 量 可 能 会 很 大 ， 

这 样 的 结果 是 不 可 取 的 。 此 外 ， 

如 果 管理 程序 发 生 更 改 ， 则 将 很 管理 程序 








难 迁 移 到 新 的 管理 程序 。 这 种 方 
法 的 优点 是 管理 程序 可 以 确保 所 
有 客户 操作 系统 的 安全 性 。 另 一 方面 ， 如 果 客 户 操作 系统 正在 进行 监控 ， 则 更 容易 迁移 
到 新 的 管理 程序 。 这 些 必须 在 虚 
拟 化 组 件 层 的 设计 中 进行 权衡 。 





图 16.3 管理 程序 监控 















































图 16.3 说 明了 监控 客户 操作 系统 

的 虚拟 机 监控 程序 ， 而 图 16.4 说 

明了 执行 监控 的 客户 操作 系统 。 [Eea | 
接 下 来 ， 我 们 研究 SaaS, PaaS 管理 程序 








和 Jaas 层次 应 用 程序 的 安全 性 。 
SaaS 提供 商 负责 提供 应 用 程序 的 
安全 性 。 关 于 PaaS, YE PaaS 
平台 层次 以 及 部 署 在 Paas 平台 上 的 客户 应 用 程序 层面 提供 安全 性 。 至 于 IaaSs， 客 户 应 
用 程序 则 被 视 为 黑箱 。 也 就 是 说 ，IaaS 对 应 用 程序 的 安全 性 不 负责 任 。 

我 们 在 本 节 一 开始 就 指出 安全 体系 结构 通常 由 系统 架构 的 安全 关键 组 件 组 成 。 因 
此 ， 这 里 的 主要 问题 是 : 什么 是 云 的 TCB? 应 该 信任 多 少 管理 程序 ?安全 架构 师 面临 的 
挑战 ， 是 为 云 设计 以 最 小 化 TCB， 却 能 提供 最 大 化 安全 性 的 软件 。 


16.4 身份 管理 和 访问 控制 





图 16.4 客户 端 操作 系统 监控 







































































在 本 节 中 ， 我 们 将 讨论 身份 管理 和 访问 控制 的 技术 ， 及 其 对 云 计算 的 适用 性 。 身 份 
管理 的 首要 问题 是 信任 边界 。 在 传统 的 环境 中 ， 信 任 边界 在 组 织 机 构 的 控制 之 内 。 这 包 
括 网 络 、 服 务 器 、 服 务 和 应 用 程序 的 管理 。 在 云 环 境 中 ， 信 任 边 界 是 动态 的 ， 并 在 服务 
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提供 商 以 及 组 织 机 构 的 控制 之 内 移动 。 对 于 在 组 织 协 作 模 式 中 处 理 动态 和 松散 耦合 的 信 
任 关系 ， 身 份 联盟 是 新 兴 行 业 的 最 佳 实践 。 身 份 联盟 架构 的 核心 是 目录 服务 ， 它 是 身 
份 、 凭 证 和 用 户 属性 的 存储 库 。 身 份 管理 使 组 织 机 构 能 够 实现 访问 控制 和 可 操作 的 安 
全 性 。 

在 本 章 参 考 文献 [ MATH09] 中 讨论 了 需要 身份 管理 的 各 种 去 用 例 。 其 中 包括 以 下 
内 容 : 组 织 机 构 中 的 员工 使 用 身份 联盟 访问 SaaS; 开发 人 员 为 Paas 中 的 合作 伙伴 用 户 
创建 账户 ; 终端 用 户 访问 云 中 的 存储 服务 。 应 用 程序 居于 一 个 CSP 之 中 ， 从 另 一 个 云 
服务 访问 存储 ， 并 快速 为 用 户 提供 资源 以 适应 其 变化 的 角色 。 

身份 管理 的 3 个 主要 组 成 部 分 是 认证 、 授 权 和 审核 。 认 证 是 核实 用 户 、 系 统 或 服务 
的 身份 。 授 权 是 给 用 户 、 系 统 或 服务 在 进行 号 份 验证 后 应 具有 的 权限 〈 例 如 ， 访 问 控 
制 ) 。 审 核 是 检查 用 户 、 系 统 或 服务 执行 的 操作 ， 并 检查 合 规 性 。 身 份 管理 过 程 包括 用 
户 管理 (用 于 管理 身份 生命 周期 )、 身 份 验证 管理 、 授 权 管 理 、 访 问 管理 、 监 控 和 审 
核 、 配 置 、 凭 证 和 属性 管理 、 权 限 管理 、 合 法 性 管理 和 身份 联盟 管理 。 如 本 章 参 考 文献 
[ MATH09] 中 所 述 ， 使 用 云 的 组 织 机 构 必 须 计划 为 用 户 配置 账户 。 例 如 ， 在 云 中 验证 
用 户 ， 身 份 管理 也 可 以 作为 服务 提供 。 


16.4.1 云 身份 管理 


在 基于 云 的 身份 管理 中 ， 必 须 执行 用 户 身 份 的 生命 周期 管理 。 我 们 正 探 索 在 云 中 实 
施 身 份 联盟 管理 与 单 点 登录 。CSP 的 责任 和 组 织 /企业 的 责任 分 别 是 什么 ?企业 身份 和 
访问 管理 (Identity and Access Management , IAM) 要 求 包 括 为 用 户 提供 云 服 务 账户 。 目 
前 对 云 身 份 管理 的 研究 ， 还 包括 企业 如 何 将 其 身份 管理 需求 扩展 到 SaaS, PaaS 和 IaaS。 

为 身份 管理 已 经 制定 了 几 项 标准 。 身 份 联盟 管理 标准 包括 安全 声明 标记 语言 (Se- 
curity Assertions Markup Language, SAML), WS 联盟 、 自 由 联盟 、 服 务 配 置 标记 语言 
(Service Provisioning Markup Language, SPML), 可 扩展 访问 控制 标记 语言 (eXtensible 
Access Control Markup Language , XACML) 、 开放 授权 ( Open Authorization, OAuth) , F 
放 ID 、 信 息 卡 和 开放 认证 (Open Authentication, OAUTH), 在 本 节 中 ,我 们 将 讨论 这 
些 标准 。 

SAML: 如 本 章 参 考 文献 [SAML] 所 述 ， 安 全 声明 标记 语言 (SAML) 是 一 种 基于 
XML 的 开放 标准 数据 格式 ， 用 于 在 身份 提供 商 和 服务 提供 商 之 间 交 换 身 份 验证 和 授权 
的 数据 。 

WS 联盟 : 如 本 章 参考 文献 [FEDE] 所 述 ，WS 联盟 是 由 BM 和 微软 等 不 同 公司 开 
发 的 身份 联盟 规范 ， 也 是 Web 服务 安全 框架 的 一 部 分 。 它 定义 了 允许 不 同安 全 领域 代 
理 关 于 身份 、 身 份 属性 和 身份 验证 的 信息 机 制 。 

自由 联盟 : 如 本 章 参考 文献 [LIBE] 所 述 ，2001 年 9 月 由 各 组 织 成 立 的 自由 联盟 ， 
制定 了 身份 管理 的 开放 标准 、 指 南 和 最 佳 实践 。 

服务 配置 标记 语言 : 如 本 章 参 考 文献 [SPML] 中 所 述 ， 服务 配置 标记 语言 
(SPML) 是 一 种 基于 XML 的 框架 ， 用 于 在 合作 组 织 之 间 交 换 用 户 、 资 源 和 服务 配置 的 
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信息 。 








可 扩展 访问 控制 标记 语言 : 如 本 章 参 考 文献 [XACML] 所 述 ， 可 扩展 访问 控制 标 








记 语 言 (XACML) 是 定义 以 XML 实现 的 声明 方式 访问 探 人 





如 何 根据 策略 中 定义 的 规则 评估 授权 请 求 的 处 理 模 型 。 

















il] SHE 

















咯 语言 的 标准 ， 以 及 描述 











开放 授权 : 如 本 章 参 考 文献 [OAUTI] PR, 开放 授权 是 授权 的 开放 标准 ， 人 允许 
用 户 与 其 他 站 点 分 享 其 存储 在 一 个 站 点 上 的 私人 资源 (例如 照片 、 视 频 ) ， 而 无 需 提供 





其 凭证 。 相 反 ， 用 户 通 常会 提供 用 户 名 和 密码 令 牌 。 开 放 授 权 提 供 云 服务 X 从 云 服务 Y 














访问 数据 的 能 力 ， 而 不 公开 其 凭证 。 


开放 ID :如 本 章 参 考 文献 [OPEN] 所 述 ， 开 放 ID 是 
一 种 开放 标准 ， 用 于 描述 用 户 如 何以 分 散 的 方式 进行 身份 
验证 。 它 不 需要 为 自己 的 系统 提供 服务 ， 并 允许 用 户 整合 






































其 数字 身份 。 





HEAR: 如 本 章 参 考 文献 [INFO] 所 述 ， 信 息 卡 是 








个 人 可 以 在 线 使 用 的 个 人 数字 身份 。 














它 是 身份 元 系统 的 主 


要 组 成 部 分 ， 它 是 数字 身份 的 互 操作 架构 ， 能 够 让 人 们 使 








用 基于 多 种 技术 的 数字 身份 集合 。 


开放 认证 : 如 本 章 参考 文献 [OAUT2] 所 述 。 开 放 认 








证 是 一 种 行业 的 广泛 协作 ， 通 过 统一 采用 强 认证 对 现 有 的 


开放 标准 来 修改 实现 开放 参考 架构 。 








总 而 言 之 ， 我 们 已 经 讨论 了 云 身 份 管理 的 各 个 方面 。 








图 16. 5 说 明了 这 些 方面 。 


16.5 云 存 储 和 数据 安全 








在 保护 云 数据 的 同时 ， 和 需要 识别 不 同类 型 的 数据 。 这 些 包 括 传输 中 下 


。 安 全 声明 标记 语言 
。WS 联 盟 
- 服务 配置 标记 语言 


- 可 扩展 访问 控制 标记 语言 


。 开 放 授权 
。 开放 ID 
* 信息 卡 
。 开 放 认 证 





* 开放 认证 API 








图 16.5 身份 管理 和 访问 





控制 标准 








的 数据 和 








静止 的 








数据 。 数 据 在 云 中 从 一 个 节点 移动 到 男 一 节点 。 传 输 中 的 数据 必须 是 安全 的 。 存 储 在 云 
中 的 数据 也 必须 被 保护 。 其 他 数据 安全 问题 包括 数据 沿袭 和 数据 来 源 。 那 就 是 数据 来 自 


哪里 ? 我 们 可 以 相信 这 些 数 据 吗 ? 数据 准确 吗 ? 数据 残留 也 是 云 的 重要 方面 。 




















说 ， 一 旦 客户 从 云端 移 除数 据 ，CSP 必须 确保 该 客户 的 数据 不 会 被 保留 在 云端 。 
数据 安全 解决 方案 包括 加 密 、 身 份 管理 和 清理 。 尽 管 传 输 中 的 数据 被 加 密 ， 
中 使 用 数据 则 需要 解密 。 也 就 是 说 ， 云 中 有 未 加 密 的 数据 。 只 要 数据 未 加 密 ， 就 会 存在 























重大 安全 隐患 。 因 此 ， 敏 感 数据 不 能 存储 在 公有 云 中 。 由 克 雷 格 . um 
ty， 见 本 章 参考 文献 [GENTO9]) 在 斯 坦 福 大 学 开发 的 同 态 
算 的 解决 方案 。 在 这 种 方法 中 ， 作 者 已 经 证 明 不 必 解 密 数据 识 






































EC 可 以 执行 操作 。 





也 就 是 





日 在 云 


E (Craig Gen- 
加 密 解决 方案 是 未 来 云 计 


这 里 主要 的 挑战 是 提供 商 应 该 收集 哪些 数据 。 例 如 元 数据 ， 以 及 如 何 保护 这 些 数 








据 ? 其 他 数据 的 安全 问题 包括 访问 控 
中 数据 安全 的 目标 。 
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前 和 加 密 密 钥 管理 。 机 蜜 性、 完整 性 和 可 ) 











性 是 云 
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数据 安全 还 包括 数据 管理 安全 。 也 就 是 说 ， 如 何 保护 在 云 上 运行 的 数据 库 ? 我 们 的 
大 部 分 研究 都 是 关于 开发 用 于 查询 处 理 的 云 数据 安全 管理 顺 。 本 书 将 在 第 六 部 分 讨论 我 
们 的 原型 。 图 16. 6 说 明了 云 存储 和 数据 安全 性 的 各 个 方面 。 


























安全 存储 
和 加 密 





图 16.6 云 存储 和 数据 安全 





16.6 云 的 隐私 、 合 规 性 和 取证 











我 们 将 法 律 问题 分 为 3 个 部 分 。 一 个 是 隐私 ， 另 一 个 是 审计 和 合 规 性 的 各 种 规定 ， 


第 三 个 是 取证 。 
16.6.1 隐私 


隐私 是 云 中 的 主要 关注 点 。 问 题 是 : 谁 负责 隐私 ? 是 数据 的 所 有 者 还 是 云 呢 ? 数据 
生命 周期 是 隐私 的 一 个 重要 方面 。 这 包括 数据 的 生成 、 使 有 用、 传输、 转换、 存储、 归档 
和 销毁 。 我 们 需要 针对 数据 生命 周期 中 的 每 个 操作 制定 策略 。 

这 里 需要 回答 几 个 问题 ， 包 括 : 谁 拥 有 数据 ? 是 首先 收集 信息 的 组 织 、 收 集 数据 的 
人 还 是 CSP 呢 ? 如 果 CSP 不 是 数据 的 所 有 者 ， 那 么 CSP 的 作用 又 是 什么 呢 ? 需 要 注意 
的 是 ， 组 织 可 以 转移 责任 ， 但 不 能 追究 责任 。 评 估 和 降低 风险 必须 在 整个 数据 生命 周期 
内 进行 。 此 外 ， 组 织 和 CSP 必须 对 法 律 的 责任 有 明确 认 知 。 

许多 关于 数据 生命 周期 方面 的 原则 已 经 被 制定 出 来 。 这 些 包括 收集 限制 原则 、 使 用 
限制 原则 、 安 全 原则 、 保 留 和 销毁 原则 、 转 移 原则 和 责任 原则 。 为 了 适应 云 ， 这 些 原则 
必须 进行 审查 。 


16.6.2 条例 和 合 规 性 


为 保护 数据 和 信息 以 及 信息 技术 系统 ， 无 论 在 美国 国内 还 是 国外 ， 人 们 已 经 制定 了 
几 项 法 规 。 美国 的 隐私 管理 条 例 包括 “联邦 民事 诉讼 规则 ”“ 美 国 爱国 者 法 ”“ 电 子 通 
信和 隐私 法 案 ” “金融 服务 和 市 场 法 案 (Financial Services and Markets Act, FISMA)" , 
“金融 服务 现代 化 法 案 (Gramm - Leach - Bliley Act, GLBA)” “ 健康 保险 准 入 和 责任 
法 案 (Health Insurance Portability and Accountability Act，HIPAA)” 和 “ 健康 信息 技术 经 
济 与 临床 健康 法 案 (Health Information Technology for Economic and Clinical Health, 
HITECH)”。“ 国 际 规 则 ”包括 欧盟 (European Union, EU) 指令 和 亚太 经 合 组 织 (Asia 
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Pacife Economic Cooperation, APEC) 隐私 框架 。 我 们 必须 审查 这 些 条 例 的 云 安 全 性 。 

有 计 和 合 规 性 是 TT 安全 的 主要 方面 。 步 又 包括 : 制定 目标 ， 定 义 需 求 (为 客户 提 
供 服 务 )， 定 义 架构 ( 即 ， 架构 师 和 结构 服务 以 满足 需求 )， 定 义 策 略 ， 定 义 流程 和 程 
序 ， 持 续 运 营 ， 持 续 监 控 和 持续 改进 。 审 计 规 则 包括 “ 萨 班 斯 - 奥克斯 利 法 案 ”“ 文 
付 卡 行业 数据 安全 标准 (Payment Card Industry Data Security Standard, PCI DSS )”、 
“HIPAA” 和 “信息 及 相关 技术 控制 目标 (Control Objectives for Information and Related 
Technology，COBIT)”。 对 于 云 计算 而 言 ， 需 要 回答 这 几 个 问题 ， 其 包括 : 云 计 算 对 上 
述 规定 的 影响 是 什么 ? 云 的 内 部 和 外 部 审计 是 什么 ? 什么 是 适合 云 的 审计 框架 ? 


16.6.3 云 取 证 
与 云 相 关 法 律 方 面 的 第 三 个 组 成 部 分 是 进行 去 取证。 这 里 有 两 个 问题 。 一 个 是 使 用 

云 来 进行 取证 。 这 是 因为 取证 数据 的 分 析 可 能 非常 耗 时 。 因 此 ,使 用 云 ， 可 以 将 获得 取 

证 作为 服务 。 男 一 方面 是 分 析 被 攻击 

的 云 。 这 是 一 个 重大 挑战 ， 因 为 攻 

可 能 发 生 在 云 中 的 任何 地 方 。 检 查 人 

员 应 该 找 出 已 经 被 破坏 的 节点 ， 并 确 


定 攻 击发 生 的 时 间 、 地 点 和 原因 。 同 
样 利 用 虚拟 化 技术 ， 管 理 程序 和 客户 ERA 云 的 合 规 性 云 取证 
操作 系统 一 样 必须 被 监视 。 有 关 安 全 
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架构 部 分 的 内 容 已 经 讨论 了 一 些 挑战 图 16.7 云 的 法 律 方 面 内 容 
性 问题 。 图 16.7 说 明了 云 的 各 种 法 
律 方 面 内 容 。 





16.7 加 密 方案 


我 们 讨论 加 密 是 我 们 对 云 数 据 安全 和 存储 概述 的 一 部 分 。 如 前 所 述 ， 所 有 敏感 
数据 ， 无 论 是 否 在 传输 ， 都 必须 在 云 中 加 密 。 这 里 主要 的 挑战 是 执行 操作 时 数据 
的 解密 。 无 论 何 时 哪怕 是 临时 的 ， 解密 的 数据 都 必须 存储 在 云 中 ， 这 是 一 个 重大 
的 漏洞 。 虽 然 同 态 加 密 是 一 个 有 希望 的 解决 方案 , 但 这 个 解决 方案 的 实现 将 是 很 
多 年 以 后 的 事 了 。 

目前 ， 存 储 在 云 中 或 通过 云 传输 的 数据 使 用 传统 的 加 密 技 术 。 这 些 包 括 对 称 密 钥 或 
基于 非 对 称 密 钥 的 加 密 算 法 。 例 如 ， 为 了 确保 机 密 性 ， 发 送 者 可 以 使 用 接收 者 的 公 钥 来 
加 密 数 据 。 接 收 者 用 他 的 私 钥 解 密 数 据 。 为 了 确保 完整 性 ， 发 送 方 可 以 使 用 他 的 私 钥 加 
密 数 据 。 接 收 方 将 使 用 发 件 人 的 公 钥 对 数据 进行 解密 。 我 们 需要 研究 去 开发 适应 云 的 特 
定 的 加 密 解 决 方案 。 图 16. 8 为 加 密 解 决 方案 。 
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被 使 用 接收 
者 的 公 钥 加 
发 送 者 密 的 数据 接收 者 
被 接收 者 的 
私 钥 解密 的 
数据 





























图 16.8 ”加密 解决 方案 


16.8 网 络 安全 


网 络 安全 解决 方案 必须 确保 组 织 机 构 在 公有 云 提 供 商 中 往返 传输 数据 的 机 密 性 和 完 
整 性 。 这 包括 确保 公有 云 资源 的 正确 访问 控制 (身份 验证 、 授 权 和 和 审核)， 确保 组 织 机 
构 使 用 的 公有 云 ， 在 面向 互联 网 
的 资源 时 具有 可 用 性 ， 以 及 使 用 
域 来 替换 已 建立 的 网 络 区 域 和 层 
级 。 也 就 是 说 ， 云 的 网 络 被 划分 
为 域 ， 并 且 必 须 在 域内 以 及 跨 域 
的 情况 下 提供 安全 性 。 这 里 的 一 
个 关键 是 减轻 风险 系数 。 

云 的 大 部 分 安全 性 集中 在 架 
构 、 数 据 和 存储 安全 以 及 身份 管 
HE, 一 些 现 有 的 网 络 安全 协议 
正在 应 用 于 保护 云 网 络 。 在 开发 
云 的 特殊 网 络 安全 协议 方面 ， 我 
们 还 需要 进行 研究 。 图 16.9 说 明 
了 云 的 网 络 安全 方面 。 


16.9 业务 连续 性 规划 






































































节点 A 




















网 络 虚拟 化 网 络 虚 拟 化 

















图 16.9 网 络 安全 





开 组 织 面临 的 挑战 是 业务 连续 性 规划 和 灾难 恢复 。 灾 难 可 能 包括 自然 灾害 ， 如 地 
$E. AMEER; IRA AGEN, WN KE AR HE, E9. 11 事件 和 卡特 里 娜 之 后 ， 
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许多 IT 机构 发 现 维持 运作 的 连续 性 是 非常 困难 的 。 因 此 ， 适 当 的 规划 至 关 重 要 。 

业务 连续 性 规划 和 灾难 恢复 中 的 步 又， 包括 具有 复制 IT 环境 的 镜像 站 点 。 这 些 站 
点 可 以 是 具有 极 少 设备 的 冷 站 点 或 中 等 热度 /高 热度 站 点 ， 并 且 可 以 被 完全 复制 。 建 立 
备份 站 点 并 不 简单 。 该 组 织 必须 进行 模拟 ， 以 确定 将 可 能 出 现 的 潜在 问题 。 此 外 ,组织 
必须 有 适当 的 灾难 恢复 计划 。 

在 云 环境 中 ， 一 个 主要 的 方面 是 在 SLA 中 记录 所 有 事情 。 例 如 ，CSP 可 能 会 指定 云 
将 每 周 停机 一 定 的 时 间 来 进行 维 nee 
护 ， 这 必须 记录 在 SLA 中 。 最 后 ， 和 灾难 恢复 
业务 连续 性 计划 和 灾难 管理 步骤 
必须 扩展 ， 把 云 包 括 进去 。 也 就 
是 说 ， 为 了 备份 整个 云 是 应 该 被 















































制定 业务 连续 性 | | aga 进行 演练， 
复制 ， 还 是 应 该 复制 云 的 某 些 部 | 规划 和 灾 蕉 恢 制定 SLA， 
i MIU HELL JURO 


分 呢 ? 我 们 在 这 方面 没有 太 多 的 
研究 。 图 16. 10 说 明了 业务 连续 性 图 16. 10 ”业务 连续 性 规划 
规划 的 各 个 方面 。 




















16.10 ”操作 管理 


IT 组织 的 操作 管理 ， 包 括 管理 和 维护 组 织 中 众多 的 计算 机 和 网 络 。 例 如 ， 所 有 的 
机 器 必须 保持 最 新 的 补丁 版 本 。 这 项 活动 通常 由 该 组 织 的 首席 安全 官 管理 。 系 统 和 数据 
库 必 须 定 期 备份 。 此 外 ， 遗 留 系统 必须 不 时 地 迁移 到 现代 平台 。 

云 中 的 操作 管理 是 一 个 相对 未 开发 的 领域 。IT 组织 的 操作 管理 将 实践 如 何 移植 到 
云端 ? 谁 负责 云 中 的 操作 
管理 ? 是 否 有 云 安全 官 ? 操作 管理 
服务 提供 商 的 作用 是 什么 ? 
什么 时 候 且 如 何 备份 云 中 





















































的 系统 ?操作 管理 对 SaaS, mes 
PaaS 和 Iaas 以 及 部 署 模式 “| 。 维护 计算 基础 补丁 管理 ， PAAT 
有 什么 影响 ? 我 们 需要 更 “| 设施 的 策略 daas 吻 受 攻击 

















多 的 研究 来 给 出 上 述 问 题 
的 答案 。 图 16.11 说 明了 
操作 管理 的 各 个 方面 。 


16.11 物理 安全 


图 16.11 操作 管理 








最 后 一 点 ， 云 的 物理 安全 性 是 至 关 重 要 的 。 对 于 IT 组 织 的 物理 安全 将 包括 保护 系 
统 和 数据 免 妥 自 然 灾害 ,如 火灾 、 人 为 灾害 、 悉 怖 主义 和 故意 破坏 。 物 理 安全 措施 包括 
适当 的 加 锁 和 照明 ， 以 及 为 栅栏 、 墙 壁 、 窗 户 和 门 使 用 适当 的 材料 。 员 工 应 得 到 允许 才 
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能 进入 设备 所 在 的 楼 宇 。 此 外 ， 除 了 安保 人 员 监 控 进 入 外 ， 还 需要 安装 安全 摄像 头 。 





这 里 的 问题 是 如 何 将 物理 安全 
普 施 扩展 到 云 环境 ? 云 组 件 可 能 会 
分 散在 世界 各 地 。 那 么 谁 应 该 保护 
云 呢 ? 服务 提供 商 又 有 什么 责任 ? 
如 果 云 的 组 件 被 盗 会 发 生 什么 ? 


























适当 的 加 锁 、 i 
我 们 需要 做 更 多 的 工作 来 确定 上 述 | Nus. p 防止 火灾 制定 物理 





问题 的 答案 。 图 16. 12 说 明了 物理 安 
全 性 的 各 个 方面 。 图 16. 12 物理 安全 


16.12 总结 和 展望 


























和 围栏 守卫 AUR, 保护 策略 








本 章 讨 论 了 各 种 云 计 算 安 全 的 概念 。 首 先 ， 我 们 讨论 了 云 计 算 安全 和 管理 。 








EX, Wf 











论 了 云 安 全 架构 的 各 个 方面 。 再 次 ， 又 讨论 了 云 的 访问 控制 和 身份 管理 。 接 着 ， 我 们 讨论 
云 的 数据 和 存储 安全 问题 。 另 外 ， 我 们 概述 了 云 的 隐私 、 合 规 性 和 取证 。 最 后 ， 讨 论 了 如 
加 密 解决 方案 、 网 络 安 全 问题 、 业 务 连续 性 、 操 作 安全 性 和 云 的 物理 安全 问题 等 多 个 方面 。 

本 音 讨 论 的 许多 概念 对 于 云 计算 来 说 尚未 成 熟 。 例 如 ， 关 于 身份 管理 ， 我 们 讨论 了 为 IT 
系统 中 的 身份 管理 而 开发 的 几 个 标准 ， 包 括 SAML、SPML 和 XACML。 这 些 标准 必须 对 云 适 






































用 。 应 用 云 的 标准 和 技术 的 一 个 主要 挑战 是 可 扩展 性 。 因 为 ， 云 可 以 有 数 百 个 节点 ， 


























并 且 也 














可 以 进行 大 量 的 计算 ， 并 确保 客户 能 及 时 得 到 响应 。 也 就 是 说 ， 云 的 性 能 是 一 个 重大 问题 。 








如 前 所 述 ， 云 计算 安全 的 研究 才刚 刚 开 始 。 在 部 署 安全 的 云 之 前 ， 还 需要 做 更 多 的 了 
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第 17 章 云 计 算 功 能 的 安全 


17.1 概述 





车 第 8 章 中 ， 我 们 概述 了 有 关 云 的 各 种 概念 。 这 包括 对 部 署 模型 和 服务 模型 的 讨 
论 。 在 第 9 章 中 ,我 们 讨论 了 云 计算 的 功能 。 特 别 是 ,我们 描述 了 一 个 云 计算 框架 ， 然 
后 又 讨论 了 框架 的 各 个 层次 。 在 第 16 章 中 ,我们 讨论 了 云 计算 安全 的 概念 。 特 别 是 ， 
我 们 介绍 了 CISSP 模块 ， 并 探讨 了 云 对 这 些 模块 的 影响 。 在 本 章 中 ， 我 们 将 继续 讨论 云 
计算 功能 的 安全 。 具 体 来 说 ， 我 们 将 研究 第 9 章 讨 论 的 云 计算 功能 ， 并 介绍 安全 性 对 这 
些 功 能 的 影响 。 这 些 功 能 包括 : 

B 云 操作 系统 

B 云 存储 系统 

B 云 数据 库 系 统 

B 云 网 络 系统 

使 用 我 们 的 云 计算 安全 框架 将 能 更 好 地 说 明 云 计算 功能 的 安全 。 此 外 ， 我 们 还 将 讨 
论 云 中 的 完整 性 管理 。 最 后 ， 我 们 将 讨论 云 应 用 ， 如 云 信息 和 知识 管理 。 

本 章 的 结构 如 下 。 我 们 的 云 计 算 安全 框架 将 在 17. 2 节 中 讨论 。17. 3 节 讨 论 操作 系 
统 功能 的 安全 ， 包 括 虚 拟 化 安全 。17.4 节 将 讨论 云 网 络 安 全 。17. 5 节 将 讨论 云 存 储 管 
理 安全 功能 。17. 6 节 将 讨论 云 数据 管理 功能 的 安全 。17.7 节 将 讨论 访问 控制 和 身份 管 
理 等 其 他 方面 。 应 用 功能 将 在 17. 8 节 中 讨论 。 本 章 总 结 在 17. 9 节 。 本 章 讨论 的 概念 如 
图 17. 1 所 示 。 有 关 云 计算 安全 问题 的 更 多 详细 信息 ， 请 参见 本 章 参 考 文献 [HAMLIO] 
和 [MATHO9], 
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框架 系统 安全 安全 管理 安全 | | 管理 安全 安全 完整 性 


图 17.1 云 计算 功能 的 安全 





17.2 云 计算 安全 框架 


云 计算 安全 框架 如 图 17. 2 所 示 。 我 们 定义 了 一 个 分 层 框架 ， 最 底层 是 网 络 层 ， 最 
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高 层 是 应 用 层 。 应 用 程序 可 以 是 任何 类 型 的 应 用 EU 
程序 ， 包括 医疗 保健 、 金 融 、 防 御 和 情报 。 我 们 一 
在 云端 托管 的 应 用 程序 包括 威胁 分 析 、 恶 意 软件 到 数据 管理 安全 
检测 ， 以 及 可 确保 安全 的 信息 共享 和 本 体 管理 。 云 存储 管理 安全 
我 们 将 在 后 面 的 章节 中 描述 这 些 应 用 。 Seeger les 
云 安全 框架 的 核心 层 是 操作 系统 /虚拟 化 安 
据 管理 安全 层 。 操 作 系统 /虚拟 化 安全 层 是 执行 | | 
虚拟 化 以 及 内 存 管 理 、 调 度 和 进程 间 通 信 管理 的 图 17.2 zi fua 





























层 。 存 储 安全 层 将 管理 云 中 数据 的 大 量 存 储 ， 其 

功能 包括 数据 的 加 密 和 解密。 我 们 已 经 探讨 了 确保 Hadoop 安全 地 管理 分 布 式 存储 的 方 
面 。 如 前 所 述 ，Hadoop 与 谷歌 的 Map/Reduce 携手 开展 了 分 析 任 务 。 我 们 目前 的 研究 是 
正在 探索 如 何 确保 Map/Reduce 的 功能 。 数 据 管 理 安全 层 将 执行 云 查 询 处 理 安全 、 云 交 
易 管理 安全 、 云 元 数据 管理 安全 和 云 数 据 挖掘 安全 。 

第 9 章 讨 论 了 安全 管理 是 策略 管理 中 的 一 个 方面 。 身 份 管理 包括 识别 、 认 证 和 授 
权 ， 其 中 一 些 概 念 在 第 16 章 中 讨论 过 。 完 整 性 管理 将 包括 维持 数据 的 准确 性 和 质量 。 
其 他 与 安全 相关 的 功能 包括 管理 、 风 险 管理 以 及 备份 和 恢复 。 由 于 在 第 16 章 中 讨论 了 
许多 云 计算 安全 的 概念 ， 所 以 不 会 在 这 里 再 次 讨论 。 在 本 章 的 其 余部 分 中 ， 我 们 将 讨论 
在 本 节 中 提 到 的 每 个 功能 ， 包 括 操作 系统 安全 和 虚拟 机 管理 程序 、 数 据 存储 安全 、 数 据 
管理 安全 、 网 络 安全 、 完 整 性 管理 以 及 应 用 程序 安全 。 
















































































17.3 云 操作 系统 和 管理 程序 安全 





保护 云 操 作 系统 涉及 两 个 方面 。 一 个 是 保护 主机 操作 系统 ， 另 一 个 是 保护 虚拟 机 
(Virtual Machine，VM) 管理 程序 。 保 护 主机 操作 系统 包括 执行 适当 的 安全 策略 ， 以 及 
保护 如 内 存 管理 、 进 程 间 通 信和 调度 等 功能 。 例 如 ， 主 机 操作 系统 可 以 基于 访问 控制 列 
表 或 能 力 表 ， 来 强制 实施 访问 控制 策略 。 在 多 层次 安全 的 情况 下 ， 主 机 操作 系统 可 能 会 
执行 如 Bell 和 LaPadula 之 类 的 策略 。 进 程 之 间 的 相互 通信 由 策略 决定 。 人 例如， 进程 Pl 
可 以 发 送 消 息 到 进程 P2 吗 ? 访问 控制 策略 将 确定 进程 对 文件 的 访问 。 与 通常 的 操作 系 
统 相 比 ， 数 据 库 系统 中 的 访问 是 文件 级 的 ， 而 且 提 供 了 更 精细 的 访问 粒度 。 调 度 任 务 将 
涉及 执行 优先 级 较 高 的 任务 。 然 而 ， 如 果 具 有 较 高 优先 级 的 任务 具有 更 高 的 安全 级 别 ， 
具有 较 低 优先 级 的 任务 具有 和 较 低 的 安全 级 别 ， 则 可 能 必须 中 止 低 优先 级 任务 ， 以 便 将 资 
源 提供 给 较 高 优先 级 的 进程 。 这 可 能 导致 隐蔽 的 通道 。 在 调度 任务 时 ， 必 须 检 查 这 些 安 
全 问题 。 内 存 管理 涉及 为 进程 运行 分 配 内 存 空 间 。 这 一 行动 必须 在 不 违反 安全 策略 的 情 
况 下 进行 。 

我 们 在 第 9 章 中 讨论 了 虚拟 化 。 保 护 管理 程序 是 一 个 重大 挑战 。 这 是 因为 ， 它 是 使 
客户 机 操作 系统 分 离 的 管理 程序 。 也 就 是 说 ， 管 理 程序 必须 确保 以 操作 系统 相互 不 干扰 
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的 方式 分 配 资源 。 此 外 ， 客 户 操 作 系统 不 能 破坏 另 一 个 客户 操作 系统 的 资源 。 因 此 ， 如 
果 管 理 程序 受到 威胁 ， 那 么 整个 云 可 能 会 受到 影响 。 因 此 ， 我 们 希望 管理 程序 代码 尽 可 
能 小 。 

这 里 的 主要 问题 是 ， 谁 应 该 监视 客户 机 操作 系统 ? 如 果 管 理 程序 要 监视 所 有 的 客户 
机 操作 系统 ， 那 么 客户 机 操作 系统 就 不 能 轻易 地 移植 到 新 的 虚拟 机 (VM). 管理 程序 
中 。 此 外 ,管理 程序 代码 可 能 很 复杂 。 然 而， 所 有 的 监控 都 驻 留 在 虚拟 机 管理 程序 中 ， 
这 意味 着 每 个 虚拟 机 都 不 必 进 行 昂贵 的 计算 。 执 行 监视 的 管理 程序 称 为 虚拟 机 自 审 
( Virtual Machine Introspection，VMI) 。 如 果 客 户 机 操作 系统 进行 自我 监视 ， 则 管理 程序 
代码 将 不 会 变 得 那么 复杂 ， 但 是 每 个 虚拟 机 必须 执行 自我 监视 ， 这 可 能 在 计算 上 就 是 复 
杂 的 。 此 外 ，VM 中 的 虚拟 代理 必须 由 主机 操作 系统 进行 管理 ， 这 意味 着 大 部 分 安全 性 
是 主机 操作 系统 负责 。 

在 克 里 斯 . R (Chris Benton) 的 文章 中 ， 他 已 经 很 好 地 解释 了 这 些 概念 。 他 说 ， 
最 大 的 安全 问题 是 内 核 级 的 rootkit ( 见 本 章 参考 文献 [BENT] ) 。 这 是 因为 内 核 级 的 ro- 
otkit 会 将 核心 操作 系统 变 成 恶意 软件 。 出 现 这 样 的 结果 ， 是 因为 rootkit 具有 最 高 级 别 的 
系统 权限 ， 并 且 可 以 利用 这 些 权 限 来 使 自己 免 于 检测 。 通 过 自 审 ， 虚 拟 机 的 运行 权限 低 
于 虚拟 机 监控 程序 。 这 意味 着 ， 如 果 一 个 rootkit 感染 一 个 虚拟 机 ， 我 们 检测 rootkit 存在 
的 能 力 得 到 了 提高 。 

Chris Benton 说 ， 运 行 防 病毒 软件 在 计算 上 是 密集 型 的 。 因 此 ， 如 果 多 个 虚拟 机 同 
时 启动 完整 的 磁盘 扫描 ， 则 aas 云 可 能 变 得 无 法 响应 。 他 称 这 种 情况 是 “ 反 病 毒 
(Anti-Virus, AV) 风暴 ”。 因 此 ， 在 管理 程序 级 别 具 备 反 病毒 实例 程序 ， 就 可 以 监控 
整个 IaaS。 虽 然 我 们 期 望 在 许多 方面 管理 程序 能 够 提供 安全 性 ， 但 也 可 能 因为 执行 更 多 
功能 ， 而 发 生 对 管理 程序 的 攻击 。 此 外 ， 虚 拟 机 管理 程序 可 以 访问 整个 云 ， 因 为 它 可 以 
访问 所 有 的 虚拟 机 。 这 也 是 一 个 问题 。 

在 云 中 是 否 要 执行 管理 程序 代码 ， 还 是 增强 主机 操作 系统 的 操作 性 ， 这 种 争议 仍 在 继 
续 。 现 在 的 操作 系统 如 Android， 已 经 支持 在 云 中 运行 。 最 近 有 一 些 研 究 工作 是 关于 云 计 
算 攻 击 以 及 攻击 的 解决 方案 。 例 如 ， 北 卡罗来纳 大 学 的 迈克 尔 . 赖 特 (Michal Reiter) 和 
他 的 团队 正在 研究 XEN 等 虚拟 机 管理 程序 的 边界 攻击 。 得 克 萨 斯 大 学 达拉斯 分 校 的 林 志 
强 及 其 同事 正在 开发 VMI 解决 方案 ， 包 括 VM Space Traveler。 详细 信息 请 参见 本 章 参 考 文 
Bk [ZHANI2] 和 [FU12]。 




































































































































































































































































17.4 云 网 络 安 全 








在 第 9 章 中 ,我们 讨论 了 云 的 网 络 虚拟 化 问题 。 即 使 在 虚拟 机 管理 程序 是 安全 的 情 
况 下 ， 虚 拟 网 络 的 安全 性 仍然 是 一 个 挑战 。 网 络 虚拟 化 软件 是 否 应 该 同时 监控 所 有 虚拟 
网 络 ， 还 是 每 个 虚拟 网 络 应 该 有 属于 自己 的 监视 器 ? 如 果 单 独 监 视 ， 那么 这 些 监视 需要 
托管 在 物理 网 络 上 。 云 网 络 安全 的 另 一 个 挑战 ， 是 将 安全 网 络 协议 扩展 到 云 中 。 网 络 协 
议 包括 TCP/IP。 这 里 的 问题 是 需要 将 这 些 协议 怎么 扩展 才能 在 云 中 运行 ? 
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第 17 章 云 计 算 功 能 的 安全 人 





Chris Benton 讨论 了 云 中 防火 墙 管 理 方面 的 挑战 。 在 常规 网 络 环境 中 ,通常 有 组 织 
良好 的 防火 墙 策略 。 然 而 ， 在 云 中 ， 可 能 会 有 多 个 提供 商 提 供 多 个 防火 墙 。 管 理 所 有 防 
火 墙 的 策略 可 能 会 成 为 一 场 署 梦 。 因 为 这 些 策略 不 一 致 ， 并 有 不 同 的 表示 。 其 中 的 挑战 
是 找 出 不 同 策略 之 间 的 一 些 相 对 统一 的 映射 ， 这 就 是 虚拟 防火 墙 。 

UE (Mather) 、 库 马 拉 斯 瓦 米 (Kumaraswamy) MAER (Latif) 认为 ， 传 统 的 
网 络 区 域 和 层级 ， 必 须 被 云 环境 中 的 安全 域 或 安全 工作 组 所 取代 ( 见 本 章 参 考 文献 
[ MATH09] ) 。 他 们 声明 ， 亚 马 逊 AWS 的 安全 工作 组 功能 使 虚拟 机 能 够 通过 虚拟 防火 墙 
进行 通信 ， 该 虚拟 防火 墙 基于 P 地 址 、 端 口 和 防火 墙 来 过 滤 网 络 通信 数据 包 。 

总 而 言 之 ， 安 全 挑战 包括 保护 虚拟 网 络 、 定 义 域名 概念 、 通 过 虚拟 网 络 和 防火 墙 确 
定 虚拟 机 之 间 的 通信 ， 以 及 审查 网 络 协议 以 确定 云 计算 的 影响 。 




























































































17.5 云 存储 管理 安全 




















关于 云 存储 安全 ， 面 临 的 挑战 是 为 云 提供 适当 的 存储 方式 ， 而 不 会 违反 安全 策略 。 
例如 ， 数 据 应 该 如 何 被 分 片 ， 从 而 能 够 在 云 中 跨 节 点 存储 ， 并 且 不 会 泄露 任何 信息 ? 如 
何 利 用 数据 虚拟 化 来 提供 最 佳 的 存储 方案 并 保持 安全 性 ? Kantarcioglu 和 Mehrotra 已 经 
为 混合 云 开 发 了 引 人 关 注 的 安全 存储 方案 ( 见 本 章 参 考 文献 [ OKTA12 ] ) 。 他 们 的 存储 
方案 考虑 到 对 驻 留 在 私有 云 中 的 敏感 数据 ， 以 及 驻 留 在 公有 云 中 未 分 类 数据 的 查询 执行 
成 本 。 

加 密 是 安全 存储 的 另 一 个 主要 挑战 。 所 有 敏感 数据 如 患者 数据 和 财务 数据 都 必须 加 
密 ， 且 必须 操纵 加 密 的 数据 。 虽 然 斯 坦 福 大 学 的 工作 已 经 揭示 了 ， 如 何在 计算 上 操纵 加 
密 数 据 〈 即 同 态 加 密 ) ， 但 还 没有 开发 出 可 行 的 解决 方案 。 因 此 ， 目 前 敏感 数据 必须 存 
储 在 私有 云 中 。 

我 们 也 在 研究 审查 Hadoop 和 Map/Reduce 的 安全 性 。 研 究 如 何在 Hadoop 框架 上 实 
施 如 XACML 的 策略 模型 。 目 前 ， 我 们 的 XACML 策略 是 在 数据 级 别 上 执行 的 ， 而 不 是 
Hadoop 级 别 。 我 们 正在 探索 Hadoop 级 别 的 模型 实现 。 此 外 ,我 们 最 近 的 工作 也 包括 审 
ft Map/Reduce 框架 的 安全 性 。 






















































































17.6 云 数 据 管理 安全 








云 数据 管理 安全 问题 包括 云 查 询 处 理 安全 和 云 交易 处 理 安全 。 我 们 在 云 数据 管理 安 
全 方面 做 了 大 量 工 作 。 在 后 面 的 章节 中 ， 将 讨论 我 们 为 云 查 询 处 理 安全 开发 的 原型 。 我 
们 所 有 的 原型 都 使 用 Hadoop/ Map/Reduce 框架 进行 分 布 式 存储 。 在 我 们 的 第 一 个 原型 
中 , 在 Hive 框架 之 上 构建 了 一 个 XACML 策略 引擎 。 这 里 ， 我 们 假设 数据 位 于 云 中 的 关 
系数 据 库 中 。 在 第 二 个 原型 中 ， 我 们 开发 了 一 个 在 云 中 运行 的 SPARQL 查询 优化 器 ， 来 
存储 和 管理 RDF 数据 。 查 询 是 用 SPARQL 提出 的 ， 用 XACML 指定 策略 。 我 们 已 经 制定 
了 对 RDF 数据 执行 XACML 策略 的 查询 重 写 方案 。 更 多 详细 信息 ， 请 参见 本 章 参 考 文献 
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[THURIO] 和 [HUSA11], 

第 三 个 原型 ， 是 在 我 们 的 SPARQL 查询 优化 器 之 上 ， 实 现 了 基于 RDF 的 策略 引擎 。 
这 样 就 可 以 在 数据 和 策略 之 间 实 现 无 缝 集成 ， 两 者 都 在 RDF 中 表达 。 策 略 引擎 将 强制 
执行 信息 共享 策略 ， 并 处 理 推理 等 问题 。 当 我 们 在 本 书 的 第 七 部 分 讨论 云 中 保密 信息 共 
享 时 ， 将 讨论 这 个 策略 引擎 。 

我 们 还 开发 了 混合 云 的 原型 ， 利 用 HBASE 等 工具 进行 查询 处 理 。 在 这 里 ， 我 们 假 
设 敏感 数据 存放 在 私有 云 中 ， 而 未 分 类 的 数据 则 存放 在 公有 云 中 。 在 这 样 的 环境 中 ， 我 
们 提出 了 用 于 查询 处 理 安全 的 算法 。 详 细 信 息 可 以 在 本 章 参 考 文献 [OKTAI2] 中 
找到 。 

其 他 云 数据 管理 安全 功能 包括 事务 处 理 安 全 、 云 中 的 数据 互 操 作 性 和 云 数 据 控 掘 
当 我 们 讨论 云 数据 管理 安全 时 ， 将 在 第 18 章 中 给 出 关于 这 些 功 能 的 更 多 讨论 。 
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17.7 云 安 全 和 完整 性 管理 





云 安 全 包括 机 密 性 、 隐 私 和 信任 。 现 在 有 几 个 标准 已 经 被 开发 出 来 ， 以 提供 云 的 安 
全 性 。 我 们 在 第 16 章 讨论 了 这 些 标准 。 例 如 ，SAML 等 标准 正在 进行 探索 认证 中 。 在 
云 中 运行 SAML 的 可 扩展 性 是 一 个 挑战 。 为 了 授权 ， 我 们 正在 对 XACML 等 标准 进行 研 
究 。 也 就 是 说 ,一 旦 用 户 被 认证 ， 下 一 步 就 是 确定 用 户 可 以 访问 的 资源 。 向 用 户 提供 云 
资源 是 由 SPML 等 标准 来 实现 的 。 我 们 在 第 16 章 中 讨论 了 这 些 标准 ， 以 及 开放 ID 等 其 
他 标准 。 

为 了 确保 数据 和 处 理 的 完整 性 ， 必 须 执行 各 种 完整 性 策略 。 全 职 雇员 至 少 工作 40 
小 时 ， 这 样 的 执行 策略 在 数据 库 中 已 经 进行 了 广泛 研究 。 我 们 还 必须 为 云 环 境 研究 这 些 
具有 完整 性 的 执行 技术 。 此 外 ， 数 据 的 来 源 变 得 至 关 重要 ， 因 为 数据 可 能 来 自 多 个 云 中 
的 多 个 应 用 程序 。 因 此 , 产生 、 收 集 的 来 源 数 据 量 可 能 会 很 大 。 必 须 制 定 适当 的 策略 来 
处 理 云 中 的 大 量 数据 。 其 他 完整 性 管理 技术 包括 容错 计算 、 备 份 和 恢复 。 这 些 技术 的 相 
关 方 面 在 第 16 章 中 讨论 过 ， 我 们 将 在 第 18 章 中 再 次 讨论 。 


17.8 云 应 用 安全 

























































































在 第 12 章 中 ,我 们 讨论 了 -一些 去 应用， 如 医疗 保健 、 金 融和 社交 网 络 。 有 关 确 保 
这 些 应 用 程序 安全 的 更 多 细节 ， 将 在 第 18 章 中 讨论 。 例 如 ， 考 虑 一 个 组 织 的 知识 管理 。 
安全 知识 管理 涉及 控制 组 织 知识 产权 和 资源 的 获取 ， 这 些 通常 作为 Web 服务 的 集合 被 
提供 。 例 如 ， 组 织 机 构 可 能 希望 找到 一 个 特定 项 目的 专家 。 这 可 能 涉及 查找 专家 器 这 一 
Web 服务 ， 该 服务 可 以 通过 企业 内 部 网 找到 专家 。 这 些 Web 服务 可 以 在 云 上 实现 ， 以 
提高 性 能 。 也 就 是 说 ， 知 识 管理 服务 可 以 由 SaaS 来 实现 。Web 服务 的 安全 对 于 确保 知 
识 管理 服务 至 关 重 要 。 
虽然 我 们 已 经 定义 的 框架 ( 即 操作 系统 和 数据 库 系 统 ) 可 在 文件 和 数据 (例如 关 
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第 17 章 云 计 算 功 能 的 安全 人 






































f) 级 别提 供 安全 性 ， 但 是 应 用 程序 应 执行 应 用 程序 专用 的 策略 。 这 些 策略 对 于 应 
用 程序 是 唯一 的 。 例 如 ， 在 基于 云 的 工作 流 的 应 用 程序 情况 下 ， 这 些 策略 将 指定 一 个 人 
必须 执行 特定 活动 的 授权 。 这 些 策略 在 工作 流 管理 〈 即 应 用 程序 ) 级 别 中 执行 。 













































































17.9 总结 和 展望 


本 章 讨 论 了 云 计算 功能 的 各 个 方面 。 我 们 概述 了 云 计 算 安 全 框架 ,然后 讨论 了 云 的 
虚拟 化 、 网 络 、 数 据 存 储 和 管理 的 安全 性 。 实 际 上 ， 我 们 研究 了 本 书 第 三 部 分 讨论 的 云 
的 功能 ， 并 描述 了 这 些 功 能 的 安全 性 。 我 们 还 有 很 多 工作 有 竺 完成。 首先 ， 我 们 需要 审 
查 框架 的 每 一 层 ， 并 确定 可 能 发 生 的 攻击 。 正 如 我 们 所 说 ，Reiter 和 他 的 团队 正在 研究 
虚拟 化 层面 的 侧面 挑战 攻击 。 这 些 攻 击 不 仅 可 能 发 生 在 虚拟 化 层面 ， 还 可 能 发 生 在 存储 
层 和 数据 层 。 我 们 需要 对 潜在 的 攻击 和 这 些 攻击 的 解决 方案 进行 全 面 的 研究 。 

在 第 18 草 中 ,我们 将 详细 说 明 云 数据 管理 功能 的 安全 。 云 产品 安全 将 在 第 21 章 中 
讨论 。 在 本 书 的 第 六 部 分 ， 我 们 还 将 描述 为 云 数据 管理 安全 开发 的 一 些 原型 。 
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第 18 章 ， 云 数据 管理 安全 


18.1 概述 


在 前 两 章 中 ， 我 们 讨论 了 云 计算 安全 概念 以 及 云 计 算 功 能 安全 。 例 如 ， 在 第 16 章 
中 ， 我 们 讨论 了 云 对 10 个 CISSP 主题 的 影响 ， 包 括 管理 和 风险 管理 、 访 问 控制 、 安 全 
架构 、 加 密 、 数 据 安全 和 应 用 程序 安全 、 网 络 安 全 、 物 理 安全 、 法 律 问题 和 取证 、 业 务 
连续 性 管理 和 操作 管理 。 在 第 17 章 中 ， 我 们 讨论 了 云 计 算 功 能 安全 ， 包 括 虚拟 化 安全 、 
云 数 据 和 存储 管理 安全 、 云 网 络 安全 和 云 应 用 安全 。 本 章 将 讨论 云 数 据 管 理 安全 。 我 们 
还 将 介绍 包括 云 信息 管理 安全 和 云 知识 管理 安全 的 概念 。 

在 我 们 的 术语 中 ， 数 据 由 数据 管理 器 管理 。 信 息 是 从 数据 中 提取 出 来 的 ， 知 识 就 是 
理解 信息 以 便 进 一 步 采 取 行 动 。 数 据 管理 技术 包括 数据 库 管 理 和 数据 管理 。 信 息 管 理 技 
术 包 括 多 媒体 信息 管理 和 协同 信息 管理 。 知 识 管理 就 是 对 组 织 的 知识 和 专长 进行 再 利 
用 ,来 提高 利润 和 其 他 收益 。 在 本 章 中 ， 我 们 将 研究 数据 、 信 息 和 知识 管理 的 安全 问 
题 ， 然 后 讨论 如 何 将 云 计 算 技术 应 用 于 管理 数据 、 信 息 和 知识 。 我 们 在 云 查询 处 理 安全 
中 实现 的 一 些 原型 ， 以 及 基于 云 的 信息 共享 安全 将 在 后 面 的 章节 中 讨论 。 

本 章 的 结构 如 下 。 在 18.2 WB, 
我 们 讨论 数据 管理 安全 ， 其 中 还 包括 信 
息 和 知识 管理 安全 的 讨论 。 在 18.3 节 
中 ， 我 们 将 讨论 如 何 将 云 计 算 用 于 数 





































































































Ae ee T. 数据 、 信 息 和 
据 、 信 息 和 知识 管理 安全 。 本 章 总 结 在 “| 知识 管理 安全 


18.4 节 。 图 18.1 说 明了 本 章 讨论 的 概 图 18.1 云 数据 管理 安全 


























念 。 有 关 数 据 管理 安全 的 更 多 详细 信 
息 ， 请 参见 本 书 附录 C。 


18.2 ”数据 管理 安全 











18.2.1 访问 控制 


访问 控制 要 处 理 对 数据 的 授权 访问 ,访问 权限 依赖 用 户 、 用 户 组 和 其 他 因素 (如 
用 户 角 色 ) 。 基 于 访问 控制 的 安全 性 研究 ， 最 初 是 针对 安全 操作 系统 进行 的 ， 其 中 根据 
进程 的 种 类 授予 对 文件 的 访问 权限 。 访 问 类 型 包括 读 、 写 操作 。 然 后 ， 这 个 概念 被 扩展 
到 数据 库 ， 数 据 库 授予 对 关系 、 属 性 和 元 素 的 访问 权限 。 现 在 ， 基 于 访问 控制 的 安全 是 
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第 18 章 云 数 据 管 理 





EE 安全 | 


( 


自主 安全 的 一 部 分 ， 还 包括 处 理 复 杂 的 安全 策略 、 基 于 角色 和 功能 授予 对 数据 的 访问 ， 
赂 。 在 数据 管理 系统 中 执行 安全 策略 的 技术 之 一 是 查询 修改 ， 也 称 为 查 


以 及 正 负 授 权 策 


询 重 写 。 在 这 种 方法 中 ， 根 据 策略 修改 查询 ， 执 行 修改 后 的 查询 。 
判 。 查 询 修 改 如 图 18.3 所 示 。 更 多 细节 也 在 本 章 参 考 文 献 








的 自主 访问 控制 机 


[ THUROS] 中 给 


18. 2.2 推理 








题 存在 于 所 有 类 型 的 数据 库 系 统 中 ， 并 已 在 多 级 数据 库 的 环境 中 得 到 了 广泛 的 研究 。 推 


理 问 题 的 早期 发 
然后 ， 重 点 就 是 


访问 控制 
和 授权 策略 





出 。 





上 





图 18.2 自主 安全 











图 18. 2 为 各 种 类 型 









识别 和 
认证 策略 





查询 修改 算法 : 


输入 : 查询 、 安 全 约束 
输出 : 修改 查询 


重复 该 过 程 ， 直 到 处 理 所 有 相关 的 约束 。 


最 终结 果 是 修改 查询 。 





图 18.3 查询 修改 


问题 








展 集中 在 统计 数据 库 的 安全 性 上 。 
用 安全 约束 进程 来 解决 推理 问题 。 











研究 人 员 还 使 用 概念 结构 ， 来 设计 数据 库 应 用 程 


Fe, 并 在 设计 时 




















题 的 复杂 性 。 推 
近 














通过 推理 来 检测 是 否 有 安全 违规 。 








推理 有 很 多 技术 性 挑战 ， 其 中 包括 不 可 抵赖 性 和 问 


理 问 题 的 发 展 如 图 18.4 所 示 。 最 








近 ， 推 理 问 题 因为 隐私 内 容 而 受到 很 多 关注 。 数 据 














对 于 与 查询 相关 的 约束 ， 请 通过 “否定 "修改 查询 的 where 子 句 。 


例如 : 假设 不 向 Jane 发 放 薪水 ， 如 果 Jane 从 雇员 那里 请 求 信息 ， 
则 修改 查询 将 从 雇员 处 获取 的 属性 是 没有 工资 。 




















推理 是 构成 查询 的 过 程 ， 能 从 收 到 的 合法 响应 中 ， 推 新 出 未 经 授权 的 信息 。 推 理 问 


























数据 来 源 A: 
有 关 欧 洲 活 
动 的 信息 





数据 来 源 B: 
有 关 非 洲 
活动 的 信息 








A 和 B 





信息 是 秘密 的 
图 18.4 推理 问题 的 相关 方面 
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OY) 三 计算 开发 与 安全 
挖掘 等 技术 被 广泛 用 于 国家 安全 ， 这 引起 了 对 
一 种 形式 ， 可 以 从 公共 信息 中 推导 出 高 度 私 密 


18.2.3 分 布 式 / 异 构 数 据 管理 安全 


分 布 式 、 异 构 和 联合 数据 库 系统 的 安全 
性 ， 对 于 许多 操作 环境 至 关 重 要 。 例 如, 个 人 
的 数据 管理 系统 可 以 执行 自己 的 策略 。 这 些 策 
略 必须 结合 起 来 形成 全 局 策略 。 策 略 整合 是 异 
构 和 联合 数据 管理 系统 中 的 一 个 主要 挑战 。 图 
18.5 为 策略 整合 。 


18.2.4 对 象 数据 系统 安全 


对 象 技 术 对 于 许多 应 用 程序 很 重要 ， 包 括 
编程 语言 、 应 用 程序 、 系 统 的 设计 和 分 析 、 互 
连 和 数据 库 等 。 例 如 ，Java 等 编程 语言 是 基于 
对 象 的 。 分 布 式 对 象 管理 系统 连接 异 构 数据 库 
和 应 用 程序 ， 数据库 和 应 用 程序 使 用 对 象 来 建 
后 ， 对 象 技术 在 建 模 和 设计 方面 是 非常 受 欢迎 
是 说 ,我 们 需要 安全 的 对 象 编程 语言 、 安 全 的 



























































隐私 问题 的 关注 。 隐 私 问 题 是 推理 问题 的 
的 信息 。 





外 部 策略 : 
第 5 层 各 类 用 户 的 策略 





" 组 件 的 通用 策略 : 
第 4 层 例如 组 件 A、B 和 C 的 通用 策略 


| 


组 件 的 导出 策略 : 

第 3 层 例如 导出 策略 A、B 和 C 
(注意 : 组 件 可 能 会 将 不 同 的 

策略 导出 到 不 同 的 联合 体 ) 


联合 策略 : 
第 2 层 整合 联盟 组 件 的 导出 策略 
ERE 


第 ! 层 组 件 级 别 的 策略 : 
例如 组 件 A、B 和 C 的 组 件 策略 


图 18.5 策略 整合 


























模 。 可 以 使 用 对 象 组 件 创建 大 型 系统 。 最 
的 。 因 此 ， 对 象 的 安全 性 至 关 重 要 。 也 就 
对 象 数据 库 、 安 全 的 分 布 式 对 象 系统 和 安 








全 的 对 象 组 件 ， 并 使 用 对 象 来 建 模 安 全 的 应 用 程序 。 在 本 章 参 考 文献 [THUR05] H, 


我 们 讨论 了 与 数据 库 和 应 用 程序 相关 的 各 种 类 
模型 中 ， 访 问 可 以 被 控制 到 对 象 实例 、 属 性 、 














型 的 对 象 安全 技术 。 例 如 ， 在 安全 的 对 象 
方法 和 类 。 图 18. 6 为 对 对 象 的 访问 控制 。 








EMP 类 
实例 变量 
SS#, Ename, Salary D# 












OID = 100 OID = 200 
1, John, 20 k, 10 2, Paul, 30 k, 20 


OID = 300 
3, Mary, 40 k, 20 

















DEPT 类 
实例 变量 
D#. Dname, Mgr 


OID - 500 


10, Math, Smith 











Increase-salary (OID, value) 
Read-salary (OID, amount) 
Amount = Amount + Value 
Write-salary (OID, amount) 


OID = 600 
20, Physics, Jones 
访问 控制 规则 : 


John 有 更 新 EMP 类 的 访问 权限 
Jones 有 读 取 DEPT 类 的 访问 权限 

Smith 具 有 对 OID = 500 的 对 象 的 更 新 访问 权 了 
Mary 执 行 了 增加 工资 的 方法 


图 18.6 对 对 象 的 访问 控制 
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18.2.5 数据 仓库 、 数 据 挖掘 、 安 全 和 隐私 





去 数据 管理 安全 | 




















许多 组 织 正在 开发 数据 仓库 。 仓 库 对 不 同 的 用 户 ， 本 质 上 是 提供 了 不 同 的 数据 视 








Al, 例如， 一 家 公司 的 总 裁 可 能 
希望 看 到 季度 销售 数据 ， 而 部 门 
经 理 则 可 能 希望 看 到 每 日 销售 数 
据 。 这 些 数据 仓库 必须 是 安全 
的 。 图 18.7 为 数据 仓库 的 安全 
方面 。 例 如 ， 基 于 个 人 数据 库 需 
要 安全 策略 ， 我 们 也 必须 开发 针 
对 数据 仓库 的 策略 。 

在 本 章 参 考 文献 [ THUROS ] 
中 ， 我 们 讨论 了 数据 挖掘 与 安全 
性 之 间 的 关系 。 例 如 ， 数 据 挖掘 
可 以 用 于 处 理 如 入 侵 检 测 和 审计 
之 类 的 安全 问题 。 另 一 方面 ， 数 
























































安全 的 数据 


库 管 理 











系统 A 


安全 的 数据 
库 管理 系统 B 


安全 的 数据 
库 管 理 系统 C 














安全 的 
数据 库 


据 挖 掘 也 加 剧 了 推理 和 隐私 问题 。 这 是 因为 用 户 可 以 使 





安全 的 安全 的 


图 18.7 数据 仓库 安全 





用 各 种 数据 挖 扩 














TRH ESAE 


信息 ， 来 推出 可 能 是 敏感 和 私有 的 新 信息 ， 如 图 18. 8 所 示 。 最 近 就 有 大 量 的 侵犯 隐私 的 
讨论 ， 就 是 由 于 数据 挖掘 而 导致 的 。 我 们 在 本 章 参 考 文献 [THUR] 中 讨论 了 隐私 问题 
以 及 基于 隐私 保护 的 数据 挖掘 的 概念 。 

















为 了 安全 应 用 
的 数据 挖掘 











为 了 国家 安全 
的 数据 挖 据 : 


* 收集 数据 
， 建立 恐怖 特征 文件 
* 挖掘 数 据 
* 修改 结果 














为 了 网 络 安全 
的 数据 挖 据 : 


， 确 定 网 络 攻击 的 
类 型 

。 团 体 攻击 

”收集 数据 ， 按 掘 ， 修 
改 结果 








图 18.8 数据 挖掘 和 安全 性 


18. 2.6 信息 管理 安全 


安全 性 对 信息 管理 系统 的 功能 影 


管理 等 。 例 如 ， 考 虑 多 媒体 数据 管理 器 ! 
则 和 安全 性 ， 并 相应 地 修改 查询 。 如 果 



































=] 


Lo 


的 查询 操作 。 查 询 处 到 


存在 的 操作 X 被 分 类 ， 





如 必须 审查 访问 控 








响 很 大 ， 比 如 多 媒体 信息 管理 和 工作 流 / 协 同 信息 





Hil X 


则 该 查询 不 能 被 发 送 
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) m 


到 如 摄像 机 等 未 分 类 的 多 媒体 数据 收集 器 中 来 
和 浏览 产生 影响 。 当 浏览 多 媒体 数据 时 ， 系 统 必 须 确保 月 
览 链接 或 访问 与 链接 相关 联 的 数据 。 在 多 媒体 被 编辑 
合 起 来 形成 影像 时 ， 必 须 相应 地 对 影像 对 象 进行 分 类 。 
或 者 不 同等 级 的 高 亮 标记 归 类 。 此 外 ， 当 影像 被 编辑 ( 如 删除 
则 需要 重新 编辑 对 象 的 级 别 。 
我 们 考虑 工作 流 系统 ， 其 目的 是 让 
用 户 具 有 正确 的 凭证 来 执行 特定 任务 。 例 如 ， 在 
目 进 行 采 购 的 情况 下 ， 首 先 ， 只 有 项 目 
随 之 键入 请 求 。 然 
管理 员 必 须 使 用 他 /她 的 信用 卡 进行 采购 ， 


Wi, 
时 ， 
接 下 来 ， 











为 一 个 项 


负责 人 可 以 发 起 请 求 ， 秘 


后 ， 





开发 与 安全 
























































本 地 








A 组 的 安全 
数据 管理 器 











最 后 ， 收 发 室 有 交付 的 权力 。 在 协作 环境 中 ， 信 
任 与 协商 发 挥 着 重要 作用 。 例 如 ， 各 方 如 何 相互 
信任 来 解决 问题 ? 例如 A 给 B 一 些 信息 ,假设 A 

















和 C 互 不 通信 ，B 可 以 与 C 共享 信息 吗 ? 我 们 还 


需要 安全 的 数据 管理 技术 来 管理 





用 程序 的 数据 。 图 18. 9 说 明了 安全 协作 。 
18.2.7 知识 管理 安全 





知识 管理 








味 着 需要 执行 某 些 形 式 的 访问 控制 ， 例 如 基于 角色 的 访问 控 M 


摄 该 事件 。 安 全 性 也 会 对 多 媒体 的 编辑 
日 户 具 有 正确 的 访问 权限 ， 以 浏 
的 情况 下 ， 当 将 不 同 级 别 的 对 象 组 
我 们 可 能 需要 把 构成 影像 的 各 类 
影 的 某 些 部 分 ) 














本 地 








B 组 的 安全 
数据 管理 器 














全 局 安全 
数据 管理 器 











全 局 





图 18.9 安全 协作 


工作 流 和 协作 应 


就 是 企业 共享 资源 和 专业 知识 ， 以 及 建立 知识 资本 ， 从 而 增加 竞争 力 。 知 
识 管理 的 挑战 之 一 就 是 维护 安全 。 商 业 机 密 必须 高 度 保密 ， 防 止 竞争 对 手 访问 。 这 就 意 














为 了 


























六 、 和 凭证 机 制 或 加 密 。 
有 安全 的 知识 管理 ,我 们 需要 有 安全 的 策略 、 流 程 和 指标 〈 见 本 章 参 考 文 


HR [BERT06] )。 也 就 是 说 ， 指 标 必须 包括 对 安全 相关 信息 的 支持 。 流 程 必须 包括 安全 





BRE, RI 














问 控制 和 安全 策 
须 保 护 的 各 种 信息 ， 以 确保 安全 的 知识 管理 。 
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和 技术 


组 件 : 周期 : 


安全 策略 、 流 程 、 
指标 


图 18. 10 ANRE 


知识 管理 安全 : 
组 件 、 周 期 


安全 知识 创造 、 
共享 、 测 量 和 改进 


ta 








Hm 











BOR: 


数据 挖掘 、 协 作 、 
Web 服 务 、 语 义 Web 


省 必 须 包 括 安全 策略 。 当 创造 知识 时 ,创造 者 可 以 指定 谁 可 以 转让 知识 。 附 加 
的 访问 控制 技术 可 能 由 知识 管理 者 执行 。 知 识 } 
省。 安全 的 知识 管理 架构 可 能 赎 绕 公司 的 内 联网 建立 。 图 


t 享 和 知识 转移 操作 ， 同 时 还 必须 执行 访 


18. 10 说 明 必 





i 云 数 据 管理 安全 


18.3 云 的 影响 


在 本 节 中 ， 我们 将 讨论 云 对 18. 2 节 讨 论 的 数据 管理 功能 安全 的 影响 。 
18.3.1 自主 安全 


云 数据 管理 安全 的 大 部 分 工作 都 集中 在 云 查询 处 理 安 全 上 。 例 如 ， 在 我 们 开发 的 原 
型 中 ， 策 略 用 XACML 表示 。 该 查询 根据 策略 进行 修改 ， 并 在 云 上 执行 。 我 们 利用 Ha- 
doop/ Map/Reduce 框架 ， 以 及 分 布 式 存储 管理 和 关系 数据 管理 的 Hive 框架 。 我 们 还 对 
XACML 中 指定 的 查询 实施 了 查询 重 写 , 并 使 | XACML 
用 云 上 的 SPARQL 查询 处 理 器 来 实现 查询 语 Bu 
X Web 数据 。 查 询 处 理 器 托管 在 Hadoop/ | SPARQL 
Map/Reduce 框架 上 。 查 询 处 理 的 挑战 是 利用 | 查询 优化 器 


云 提供 的 分 布 式 处 理 和 资源 利用 能 力 。 我 们 | Padoop 
还 在 云 上 实施 了 基于 XACML 的 策略 引擎 ， 用 | e 
于 查询 处 理 安全 。 这 个 策略 引擎 在 本 章 参 考 neu REIS 


文献 [HUSA11] 中 讨论 。 图 18. 11 说 明了 策 
略 引 擎 流程 。 


18.3.2 推理 问题 


关于 推理 问题 ， 云 平台 提供 了 理想 的 解决 方案 。 为 了 处 理 推 理 问 题 ， 必 须 处 理 包 含 
历史 信息 和 外 部 知识 在 内 的 大 量 数据 。 如 此 大 量 的 数据 可 以 在 云 中 存储 和 处 理 。 如 前 所 
述 ， 我 们 已 经 开发 了 一 个 用 于 处 理 推 理 问题 的 基于 RDF 的 策略 引擎 。 这 个 策略 引擎 现 
已 在 云 上 运行 ( 见 本 章 参 考 文献 [CADEI2]), 。 图 18. 12 为 我 们 的 RDF 策略 引擎 。 


隐私 增强 的 语义 Web 接 口 


推理 引擎 / | 






























































































隐私 控制 器 











XML、RDF 文 档 、 
网 页 、 数 据 库 





语义 Web 引擎 


图 18.12 RDF 策略 引擎 
18.3.3 分布 式 和 异 构 数 据 管理 安全 
由 于 云 计算 实质 是 基于 分 布 式 计算 ， 因 此 自然 就 适用 于 分 布 式 数据 管理 。 例 如 ， 数 
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据 和 处 理 是 分 布 在 云端 的 。 对 于 集成 异 构 数据 库 ， 需 要 匹配 模式 以 及 对 齐 本 体 。 例 如 ， 
对 于 解决 实体 问题 ， 我 们 已 经 将 模式 匹配 和 本 体 对 齐 作为 解决 方案 并 进行 了 探索 。 这 些 
模式 匹配 和 本 体 管理 算法 已 经 在 云 上 实现 ( 见 本 章 参考 文献 [ALIP11] ) 。 这 里 面临 的 
挑战 是 在 云 上 实施 策略 集成 算法 。 在 我 们 的 原型 之 中 ， 我 们 假设 每 个 组 织 将 其 数据 和 策 
略 存 储 在 云端 。 各 个 组 织 将 根据 策略 共享 数据 。 


18.3.4 对 象 系统 安全 


执行 在 对 象 模型 上 的 策略 ， 可 以 与 处 理 关 系 系统 的 查询 重 写 采 用 同样 的 方法 。 对 于 
集成 各 种 组 件 的 对 象 ， 如 对 象 管理 组 (Object Management Group , OMG) 。 这 样 的 组 织 
正 探索 在 云 上 实现 对 象 请 求 代 理 。 为 这 些 系统 开发 的 安全 属性 必须 在 云 上 实现 。 


18.3.5 数据 仓库 、 数 据 挖掘 、 安 全 和 隐私 


Oracle 和 IBM 等 数据 管理 公司 正在 云端 实现 数据 仓库 产品 。 这 里 面临 的 挑战 是 在 云 
端 数据 仓库 中 实现 要 执行 的 策略 。 云 端 数据 挖 据 受到 多 方 关注 ， 数 据 挖 抉 面临 的 一 个 挑 
战 是 确保 个 人 的 隐私 。 过 去 十 年 中 ， 隐 私 保护 数据 挖掘 算法 也 已 经 出 现 。 现 有 许多 解决 
方案 ， 如 多 方 计算 ， 都 可 以 进行 密集 处 理 ， 也 是 云 实现 的 理想 选择 。 


18.3.6 信息 管理 安全 


言 息 管理 安全 相关 的 应 用 程序 ， 如 内 部 威胁 检测 和 信息 共享 正在 云 上 实施 。 此 外 ， 
在 云 上 管理 多 媒体 数据 已 经 受到 多 方 关注 。 多 媒体 服务 已 经 在 PaaS 和 SaaS 之 间 实 现 。 
这 样 的 云 被 称 为 多 媒体 云 。 这 些 云 的 移动 应 用 所 提供 的 服务 质量 ， 以 及 流 式 视频 ， 将 安 
全 服务 与 多 媒体 服务 相 结 合 仍 是 一 个 挑战 。 

在 PeopleSoft 和 SAP 等 企业 资源 计划 系统 中 ， 已 经 实施 了 工作 流 应 用 程序 。 这 些 系 
统 还 实现 了 访问 控制 策略 ， 例 如 基于 角色 的 访问 控制 。 随 着 Oracle 和 SAP 等 公司 将 其 
数据 和 应 用 程序 转移 到 云端 ， 我 们 可 以 期 竺 在 云 上 提供 安全 的 工作 流 处 理 。 在 合作 方 
面 ， 个 人 或 团体 合作 来 解决 问题 ， 他 们 可 以 利用 云 将 数据 和 策略 存储 在 云端 。 


18.3.7 知识 管理 安全 


安全 的 知识 管理 通常 作为 Web 服务 的 集合 来 提供 。 例 如 ， 组 织 可 能 希望 找到 一 个 
特定 项 目的 专家 。 专 家 查找 此 类 Web 服务 可 以 参与 这 个 工作 ， 该 服务 可 以 通过 企业 内 
部 网 找到 专家 。 这 些 Web 服务 可 以 在 云 上 实现 ， 以 提高 性 能 。 也 就 是 说 ， 知 识 管理 服 
务 可 以 实现 为 SaaS。 

































































































































































18.4 总 结 和 展望 


在 本 章 中 ， 我 们 讨论 了 安全 的 数据 管理 功能 ， 然 后 描述 了 云 对 这 些 功 能 的 影响 。 特 
别 是 ， 我们 讨论 了 自主 安全 性 、 多 层次 安全 性 、 推 理 问题 、 对 象 安全 、 多 媒体 系统 安 
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全 、 分 布 式 数据 管理 安全 、 蜡 构 数 据 集成 安全 、 数 据 仓 库 安 全 、 数 据 控 据 、 信 











息 管 理 安 





























全 和 知识 管理 安全 。 由 于 存储 、 挖 掘 以 及 挖掘 大 量 信息 的 需要 ， 因 此 保护 
据 、 信 息 和 知识 的 云 将 继续 成 为 IT 中 的 关键 领域 。 












































j 于 管理 数 


我 们 的 工作 重点 主要 是 开发 用 于 云 数 据 管理 系统 的 原型 。 我 们 还 开发 了 云 中 安全 信 

















(IE èr 
< 


E 


参考 文献 


[ALIP11] Alipanah, N., P. Parveen, L. Khan, and B. M. Thuraisingham, Ontology-driven 
query expansion using map/reduce framework to facilitate federated queries. 77 
Proceedings of International Conference on Web Services (ICW'S 2011), Washington, DC, 
712-713. 

[BERTO6] Bertino, E. et al., Secure knowledge management, ZEEE Transactions on Systems, 
Man and Cybernetics, May 2006. 

[CADE12] Cadenhead, T., V. Khadilkar, M. Kantarcioglu, and B. M. Thuraisingham, A 
cloud-based RDF policy engine for assured information sharing. In Proceedings of ACM 
Symposium on Access Control Models and Technologies (SACMAT 2012), Newark, NJ, 
113-116. 

[HUSA11] Husain, M. E, J. P. McGlothlin, M. M. Masud, L. R. Khan, and B. M. 
'huraisingham, Heuristics-based query processing for large RDF graphs using cloud 
computing. ZEEE Trans. Knowl. Data Eng., 23(9), 1312-1327, 2011. 

[THUR05] Thuraisingham, B., Database and Applications Security, CRC Press, Boca Raton, 
FL, 2005. 





aa 统 。 我 们 将 在 本 书 第 六 部 分 和 第 七 部 分 中 ， 讨 论 为 云 数据 管理 安全 而 开发 的 一 
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第 19 章 ， 云 计算 安全 指南 


19.1 概述 


在 本 章 中 ,我 们 将 概述 云 计 算 安 全 性 的 指南 。 这 些 指南 是 由 NIST 制定 的 ， 实 际 上 
是 总 结 了 NIST 文件 中 的 论述 。 有 关 指 南 的 更 多 细节 ， 我 们 希望 读者 去 参考 本 章 参 考 文 
BK [NIST], J TKA NIST 所 讨论 的 指南 ， 我们 将 云 计算 、 云 计算 服务 模型 、 部 署 模 
型 和 安全 问题 的 定义 纳入 其 中 。 

NIST 讨论 的 准则 涵盖 了 几 个 主题 。 这 些 主题 包括 服务 和 部 署 模型 、 架 构 管理 、 数 
据 保 护 、 安 全 和 隐私 、 可 用 性 以 及 事件 响应 。 由 于 云 计算 安全 仍 在 发 展 ， 读 者 应 该 注意 
到 这 些 指导 方针 也 将 随 之 发 展 。 然 而 ， 我 们 已 经 发 现 这 些 指 南 对 于 了 解 安全 的 云 计算 来 
说 是 非常 有 用 的 。 该 指南 也 讨论 了 服务 和 部 署 模型 、 身 份 管理 以 及 可 用 性 。 

本 章 的 结构 如 下 。 将 在 19. 2 节 中 对 指南 进行 概述 。 在 19. 3 节 对 本 章 进 行 总 结 。 图 19. 1 
为 本 章 讨 论 的 指南 包含 的 内 容 。 云 计算 安全 的 概述 可 以 在 本 章 参 考 文献 【MATHO9 ] 中 找到 。 
有 关 云 计算 安全 的 白皮书 已 经 发 布 在 云 安全 联盟 〈 见 本 章 参考 文献 [CSA]) 的 网 站 上 。 































































































部 署 模型 服务 模型 外 包 和 问 责 制 











事件 响应 








图 19. 1 云 计算 安全 指南 


19.2 指南 





定义 : 云 计算 已 被 NIST 定义 为 一 种 无 处 不 在 、 方 便 的 、 按 需 访 问 网 络 中 共享 的 可 
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配置 计算 资源 池 (〈 例 如， 网络 、 服 务 器 、 存 储 、 应 用 程序 和 服务 ) 的 模型 ， 可 以 通过 
最 少 的 管理 努力 或 与 服务 提供 商 的 交互 来 快速 提供 和 发 布 〈( 见 本 章 参考 文献 [NIST] ) 。 
部 署 模型 : 如 本 章 参考 文献 [NIST] 所 述 ， 有 多 种 部 署 模型 。 

公有 云 是 通过 互联 网 ， 为 公众 提供 基础 设施 和 计算 资源 的 云 。 它 由 云 提 供 商 所 拥有 
和 运营 ， 为 消费 者 提供 云 服 务 ， 并 且 对 于 客户 组 织 来 说 是 外 部 的 。 私 有 云 是 计算 环境 仅 
针对 单个 组 织 运行 的 云 。 它 可 以 由 组 织 或 第 三 方 管理 ， 并 且 可 以 在 一 个 组 织 的 数据 中 心 
内 或 其 外 部 托管 。 私 有 云 也 可 以 使 一 个 组 织 更 好 地 控制 云 的 资源 和 操作 。 混 合 云 涉及 两 
个 或 多 个 云 的 组 合 ， 其 中 至 少 一 个 是 公有 的 ， 一 个 是 私有 的 。 社 区 云 是 由 被 称 为 社区 的 
组 织 集合 管理 的 云 。 

服务 模型 .如 NIST 所 述 ， 服 务 模型 规定 了 组 织 对 云 资 源 的 控制 。 这 里 有 3 种 主要 
的 服务 模型 。 

软件 即 服务 (Software -as — a - Service, SaaS) 是 一 种 服务 交付 模型 ， 它 由 云 服务 
提供 商 提供 ， 指 的 是 所 有 运行 在 云 上 的 应 用 程序 。 这 些 应 用 可 能 包括 金融 应 用 和 医疗 应 
用 。 这 个 模型 中 的 安全 性 由 云 服务 提供 商 提供 。 平 台 即 服务 (Platform - as - a - Service, 
PaaS) 是 提供 计算 平台 的 服务 交付 模型 ， 可 以 开发 和 部 署 应 用 程序 。 就 是 说 ， 编 程 工具 
和 数据 库 是 Platform 提供 的 关于 服务 的 例子 。 云 提供 商 和 云 消 费 者 之 间 的 安全 规定 是 分 
开 的 。 基 础 设施 即 服 务 (Infrastructure - as — a - Service, laaS) 是 一 种 服务 ， 能 提供 模 
型 、 服 务 器 、 软 件 和 网 络 设备 的 基本 计算 基础 设施 ， 并 作为 可 以 托管 其 平台 和 应 用 程序 
的 服务 来 提供 。 

外 包 和 问 责 制 : 通过 云 计算 ,组 织 可 以 外 包 其 应 用 程序 、 数 据 和 处 理 。 如 NIST 所 
述 ， 由 于 外 包 ， 所 以 存在 对 安全 和 隐私 问题 的 担心 。 例 如 ， 与 数据 迁移 到 公有 云 相 关 的 
风险 是 什么 ? 

公有 云 有 3 种 类 型 。 第 一 种 不 需要 消费 者 承担 任何 成 本 ， 并 通过 广告 获得 收入 。 第 
二 种 公有 云 收取 费用 ， 但 不 包括 任何 广告 。 第 三 种 也 是 基于 费用 的 ， 但 是 这 些 费 用 是 在 
消费 者 和 提供 商 之 间 协 商 决 定 的 。 

NIST 表示 ， 一 个 组 织 最 终 要 对 其 数据 和 处 理 的 安全 性 负责 ， 每 种 类 型 的 公有 云 都 
会 带 来 不 同 的 安全 挑战 。 

管理 : 我 们 在 第 18 章 讨论 了 管理 。 在 这 里 ,我 们 将 讨论 由 NIST 所 定义 的 管理 。 

管理 是 关于 组 织 对 应 用 开发 、 设 计 、 实 施 、 测 试 、 使 用 和 监控 服务 的 策略 、 程 序 和 
标准 的 控制 和 监督 。 

这 里 的 挑战 是 为 云 服 务 开发 适当 的 管理 方法 。 这 将 涉及 确定 云 服务 提供 商 和 组 织 的 
角色 和 职责 ， 以 及 确定 风险 、 引 导 风 险 分 析 流 程 、 管 理 和 减轻 风险 。 

合 规 性 : Ub NIST 所 述 ， 合 规 是 指 组 织 有 责任 按照 既定 的 法 律 、 法 规 、 标 准 和 规范 
进行 运作 。 由 于 云 跨越 组 织 边 界 ， 在 许多 情况 下 跨越 多 个 州 ， 不 同 的 法 律 必须 进行 不 同 
的 分 析 和 执行 。 因 此 ， 数 据 安 全 和 隐私 成 为 关键 问题 。 另 外 ， 还 需要 适当 的 审计 机 制 ， 
以 确保 法 规 和 法 律 得 到 适当 执行 。 

信任 : 根据 NIST 所 述 ， 通 过 云 计算 ,组 织 放弃 对 其 数据 和 处 理 的 控制 ， 因 此 大 多 
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1 云 计 算 开 发 与 安全 





数 安全 和 隐私 控制 都 由 服务 提供 商 和 掌握。 因此， 组织 必须 信任 服务 提供 商 。 但 是 ， 要 有 
保护 敏感 数据 的 规定 。 例 如 ， 敏 感 数 据 通 常 必须 加 密 ， 因 此 不 能 放 在 公有 云 中 。 在 云 计 
算 模 式 中 也 存在 可 能 的 内 部 威胁 ， 因 为 服务 提供 商 将 可 以 访问 资源 和 数据 。 在 云 中 移动 
数据 也 增加 了 安全 隐患 。 数 据 所 有 权 必 须 在 组 织 和 服务 提供 商 之 间 建 立 起 来 。 例 如 ， 如 
果 用 户 将 数据 存储 在 云 中 ， 那 么 谁 将 拥有 这 些 数据 ? 云 服 务 还 可 以 转换 成 多 个 服务 。 因 
此 ， 必 须 检查 服务 组 合 的 安全 问题 ( 见 本 章 参考 文献 [THUR10]) 。 这 里 的 另 一 个 挑战 
是 保护 元 数据 。 这 将 涉及 有 关 用 户 的 信息 、 账 户 联系 信息 和 各 种 类 型 的 合同 。 这 些 元 数 
据 可 能 会 侵犯 用 户 隐 私 。 

风险 : 与 任何 I 全 系统 一 样 ， 基 于 云 服 务 的 风险 管理 至 关 重 要 。 如 NIST 所 述 ， 风 险 
管理 是 识别 和 评估 组 织 操作 、 组 织 资产 或 信息 系统 个 体操 作 后 果 的 过 程 ， 并 采取 必要 的 
步骤 将 其 降低 到 可 接受 的 水 平 。 

架构 : 在 本 节 中 ， 我 们 将 讨论 NIST 指南 给 出 的 架构 问题 。 虚 拟 机 是 云 的 核心 。 如 
NIST 所 述 ， 虚 拟 机 通常 用 作 laas 云 的 抽象 单元 ， 并 与 云 存 储 架构 进行 松散 耦合 。 

管理 程序 (也 称 为 虚拟 机 监视 器 ) 是 用 于 操作 多 租户 虚拟 机 ( 称 为 客户 操作 系统 ) 
的 操作 系统 和 硬件 平台 之 间 的 附加 软件 层 。 这 些 虚 拟 机 管理 程序 容易 遭受 攻击 。 如 
NIST 所 述 ， 大 多 数 虚 拟 化 平台 都 有 能 力 创 建 基于 软件 的 交换 机 ， 并 进行 网 络 配置 ， 它 
们 都 是 虚拟 环境 的 一 部 分 ， 目 的 是 允许 同一 主机 上 的 虚拟 机 更 直接 、 更 高 效 地 进行 
通信 。 

这 些 虚 拟 网 络 也 可 能 受到 攻击 。 最 后 ， 要 说 的 是 ， 云 中 的 客户 端 和 服务 器 都 必须 被 
保护 。 

身份 和 访问 管理 : 身份 管理 确保 用 户 只 能 访问 授权 信息 。 这 里 的 挑战 是 为 云 开 发 适 
当 的 访问 控制 程序 。 如 NIST 所 述 ， 身 份 联盟 允许 组 织 和 云 提 供 商 信任 ， 并 共享 数字 身 
份 以 及 跨 组 织 和 服务 提供 商 域 的 属性 ， 并 提供 单 点 登录 的 手段 。 

我 们 目前 正在 研究 各 种 标准 ， 如 SAML 和 OpenID。 认 证 是 建立 用 户 身 份 的 过 程 ， 
SAML 正在 成 为 云端 的 流行 认证 标准 。SAML 请 求 和 响应 消息 通常 通过 SOAP 来 映射 ， 
SOAP 依赖 于 XML 的 格式 。SOAP 消息 以 数字 方式 签名 。 访 问 控制 确保 用 户 可 以 访问 
他 /她 被 授权 访问 的 资源 。 另 外 ， 用 于 访问 控制 的 XACML 标准 在 云 提 供 商 中 变 得 越 来 
越 流 行 。 事实 上 ， 我 们 的 许多 实验 系统 已 经 为 各 种 类 型 的 数据 管理 器 实现 了 基于 XAC- 
ML 的 访问 控制 。 

软件 隔离 : 由 于 多 个 用 户 〈 即 租户 ) 共享 云 ， 因 此 进程 隔离 至 关 重 要 。 如 NIST 所 
XR, 在 laas 的 云 计 算 环境 中 ， 多 租户 往往 通过 复 用 来 自 潜在 的 不 同 消费 者 的 虚拟 机 执 
行 体 来 完成 相关 任务 ， 这 些 消费 者 是 同一 物理 服务 器 上 的 。 在 客户 虚拟 机 上 部 署 的 应 用 
程序 可 能 会 受到 攻击 。PaaS 和 SaaS 中 的 多 租户 软件 隔离 也 正在 探索 中 。 关 键 要 素 是 管 
理 程 序 的 安全 性 。 虚 拟 机 管理 程序 是 在 客户 操作 系统 之 间 提 供 隔 离 的 。 因 此 ， 如 果 管 理 
程序 遭 到 攻击 ， 则 整个 云 可 能 会 受到 影响 。NIST 文件 指出 基于 虚拟 机 的 云 基础 架构 的 
多 租户 将 带 来 新 的 威胁 。 最 严重 的 威胁 是 ， 恶 意 代码 可 以 逃避 其 虚拟 机 的 限制 ， 并 干扰 
虚拟 机 管理 程序 或 其 他 客户 虚拟 机 。 
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第 19 章 云 计 算 安全 指南 4 


数据 保护 : 存储 在 公有 云 中 的 数据 位 于 共享 环境 中 ， 数 据 可 能 属于 多 个 客户 。 将 敏 





感 数据 存储 在 公有 云 中 是 一 个 
攻击 。 还 有 谁 拥有 数据 的 问题 
有 数据 的 就 是 组 织 。 因 此 ， 组 
全 技术 ， 包 括 数 据 隔离 、 适 当 
必须 确保 云 中 没有 残留 的 数据 























重大 挑战 。 典 型 的 攻击 包括 对 加 密 协 议 的 攻 
， 是 创建 数据 的 组 织 还 是 云 服务 提供 商 ? 




















击 和 对 口令 的 
和 股 情况 下 ， 拥 














织 有 责任 确保 数据 安全 和 隐私 。NIST 已 经 制定 了 数据 安 








的 访问 控制 和 数据 清理 。 在 组 织 删除 数据 后 


o 


， 服 务 提供 商 





可 用 性 : 云 的 可 用 性 对 于 客户 很 重要 。 服 务 提供 商 必须 在 SLA 中 指定 可 用 性 细节 。 











有 时 可 能 会 暂时 中 断 云 或 长 时 
务 不 会 中 断 ， 还 有 避免 服务 提 
此 ， 这 些 攻击 必须 在 造成 损坏 
事件 响应 : 如 NIST 所 述 ， 
击 造成 后 果 的 有 效 系列 方法 。 
操作 系统 和 数据 库 系统 。 必 须 














间 中 断 云 。 在 这 种 情况 下 ， 需 要 适当 地 备份 
供 商 停业 的 风险 。 最 后 ， 云 可 能 会 遭 到 拒绝 
之 前 被 检测 出 来 。 
































jn 

















云 服务 提供 商 有 责任 确保 系统 运行 ， 包 括 应 
检查 云 的 日 志文 件 ， 以 便 可 以 恢复 系统 。 日 














程序 ， 以 使 服 
服务 攻击 。 因 








事件 响应 包括 用 于 处理 针对 计算 机 系统 的 安全 性 受到 攻 








用 程序 、 网 络 
志 数 据 必须 被 








及 时 提供 。 服 务 提供 商 必 须 与 组 织 以 及 事件 分 析 和 响应 小 组 合作 ， 以 确定 问题 、 取 证 分 


析 和 解决 问题 。 


19.3 总 结 和 展望 


AEX NIST 所 讨论 的 云 计算 安全 指南 进行 了 概述 。 指 南 包括 部 署 模 


及 管理 、 合 规 性 、 可 用 性 、 喘 





份 和 访问 管理 、 架 构 、 事 件 响 应 、 信 任 、 软 














型 、Web 服务 
件 隔离 和 数据 














保护 。 我 们 基本 上 总 结 了 NIST 提供 的 各 种 指南 。 更 多 详细 信息 ， 请 参见 本 章 参考 文献 








[NIST] 。 应 该 指出 ， 云 计算 将 会 不 断 发 展 ， 随 之 安全 问题 也 会 发 展 。 因 此 ， 这 些 指南 





将 继续 演进 。 然 而 ， 这 些 指南 


是 部 署 安全 的 云 的 一 个 很 好 的 起 点 。 








现在 我 们 已 经 提供 了 云 安全 问题 的 概述 以 及 云 计 算 功 能 安全 ， 重 点 是 云 数 据 管理 安 














全 ， 我 们 将 在 第 20 章 中 对 使 月 








日 云 执行 安全 功能 以 及 云 计 算 产品 和 服务 ， 











施 进行 概述 。 


[CSA] Cloud Security Alliance, https://cloudsecurityalliance.org/ 
[MATH09] Mather, T., Kumaraswamy, S., and Latif, S., Cloud Security and Privacy: An 
Enterprise Perspective on Risks and Compliance, O'Reilly, Sebastopol, CA, 2009. 
[NIST] Guidelines on security and privacy in public cloud computing, National Institute of 
Standards and Technology, http://www.nist.gov/customcf/get_pdf.cfm?pub_id=909494 
[THUR10] Thuraisingham, B., Secure Semantic Service-Oriented Systems, CRC Press, Boca 


Raton, FL, 2010. 


的 各 种 安全 措 
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#20 


20.1 概述 





第 16 ~ 19 章 讨论 了 云 计算 的 安全 问题 。 


安全 即 服 务 


例如 ,讨论 了 有 关 保 护 云 基础 设施 的 各 个 























方面 。 一 方面 云 计算 技术 必须 是 安全 的 ， 男 一 方面 云 计算 也 可 用 于 安全 服务 。 这 包括 为 
恶意 软件 检测 服务 、 垃 圾 邮件 检测 服务 和 数字 取证 服务 而 进行 数据 挖掘 。 将 云 应 用 于 安 
全 目的 已 经 被 称 为 “安全 即 服务 ”。 在 本 章 中 ， 我 们 将 讨论 云 提供 安全 性 作为 服务 的 示 




















例 。 我 们 的 主要 重点 是 数据 挖掘 服务 。 第 21 章 将 对 云 计 算 安 全 产品 (包括 安全 作为 服 


务 的 产品 ) 进行 概述 。 





数据 挖掘 在 安全 性 方面 有 许多 应 用 ， 




















包括 国家 安全 (例如 监控 ) 以 及 网 络 安全 


(例如 病毒 检测 )。 对 国家 安全 的 威胁 包括 攻击 建筑 物 、 破 坏 关 键 基 础 设施 ， 如 电网 和 
电信 系统 ( 见 本 章 参 考 文献 [ BOLZ05 ] ) 。 我 们 可 以 通过 研究 数据 挖掘 技术 ， 以 找 出 可 
疑 人 员 和 有 能力 进行 钨 怖 活动 的 人 。 数 据 挖 气 也 被 应 用 于 提供 入 侵 检测 和 审计 等 解决 方 











案 。 在 本 章 中 ， 我 们 将 主要 关注 用 





























于 网 络 安全 应 用 的 数据 挖掘 。 








要 理解 应 用 于 维护 国家 、 计 算 机 和 网 络 的 机 制 ， 我 们 需要 知道 威胁 的 类 型 。 在 本 章 
参考 文献 [THURO3] 中 ,我 们 描述 了 实时 威胁 以 及 非 实时 威胁 。 对 于 实时 威胁 是 ， 必 























须 在 一 定时 间 内 采取 行动 ， 以 防止 一 些 灾难 性 局 势 的 威胁 。 需 要 注意 的 是 ， 非 实时 威胁 
可 能 会 随时 间 的 变化 而 变 成 实时 威胁 。 例 如 ， 可 以 怀疑 一 群 丸 怖 分 子 最 终 会 做 出 一 些 邵 
怖 主义 的 行为 。 但 是 ， 当 我 们 设置 时 间 范 围 时 ， 如 在 2004 年 7 月 1 日 之 前 , 威胁 可 能 
会 发 生 ， 之 后 它 就 会 成 为 一 个 实时 威胁 ， 我 们 必须 立即 采取 行动 。 如 果 时 间 范 围 更 罕 ， 
如 “两 天 内 威胁 会 发 生 ”， 那 么 我 们 不 能 容忍 威胁 响应 中 出 现任 何 的 错误 。 

我 们 在 将 数据 挖掘 应 用 到 国家 安全 和 网 络 安全 方面 已 经 做 了 很 多 工作 。 然 而 ， 数 据 
挖掘 技术 是 计算 密集 型 的 。 因 此 ， 安 全 的 数据 挖掘 服务 是 在 云 中 实施 的 最 好 选择 。 






















































































本 章 的 结构 如 下 。 在 20. 2 节 中 ， 我 们 将 讨论 网 络 安全 应 用 的 数据 挖掘 服务 。 特 别 
是 ,我们 将 讨论 对 计算 机 和 网 络 的 威胁 ， 并 描述 用 数据 挖掘 的 应 用 程序 来 检测 这 些 威胁 









































和 攻击 。 我 们 目前 在 UTD 的 一 些 研 究 在 20. 3 节 中 进行 讨论 。20. 4 节 将 讨论 属于 安全 服 














务 类 别 的 其 他 一 些 服 务 。 
本 章 总 结 在 20.5 节 。 图 
20.1 说 明了 本 章 讨论 的 概 
念 。 更 多 细节 也 可 以 在 本 
章 参 考 文献 [THUR04] 中 
找到 。 
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用 于 网 络 安全 
的 数据 挖掘 











安全 即 服务 


图 20.1 安全 即 服 务 


20.2 用 于 网 络 安全 的 数据 挖掘 服务 应 用 


20.2.1 简介 


在 本 节 中 ， 我 们 将 介绍 为 了 安全 的 数据 挖掘 服务 。 首 先 ， 我 们 将 概述 各 种 类 型 的 威 
肋 ， 包 括 网 络 慌 怖 主义 以 及 通过 访问 控制 、 特 洛 伊 木马 和 病毒 的 安全 违规 行为 。 然 后 ， 
我 们 将 描述 数据 挖掘 技术 作为 检测 安全 违规 的 服务 ， 如 何 开 发 。 以 下 是 数据 挖掘 服务 如 
何 工作 的 一 个 例子 。 当 组 织 想 要 检查 他 们 的 网 络 是 否 被 入 侵 时 ， 他 们 将 调用 云 数据 挖 气 
服务 来 处 理 其 审计 数据 。 数 据 挖掘 服务 将 确定 是 否 存 在 任何 入侵 。 在 本 书 的 第 七 部 分 
中 ， 我 们 会 论述 入 侵 检测 和 恶意 软件 检测 的 数据 挖掘 服务 。 

本 节 的 结构 如 下 。 在 20.2.2 节 中 ,我们 概述 网 络 钨 怖 主义 ， 然 后 将 讨论 内 部 威胁 
和 外 部 攻击 。 恶 意 和 人 侵 是 20. 2. 3 节 的 主题 。20. 2. 4 节 讨 论 信 用 卡 和 身份 信息 窃取 。 对 
关键 基础 设施 的 攻击 将 在 20. 2.5 节 中 讨论 。20. 2. 6 节 将 讨论 用 于 网 络 安全 的 数据 挖掘。 


图 20. 2 为 网 络 安全 威胁 。 
POTES 信用 卡 关键 对 关键 基础 用 于 网 络 安全 
图 20.2 网 络 安全 威胁 
20.2.2 网 络 恐 怖 主义 、 内 部 威胁 和 外 部 攻击 


网 络 恐 饰 主义 是 今天 对 我 们 国家 构成 的 重大 铠 怖 威胁 之 一 。 正 如 我 们 前 面 提 到 的 那 
样 ， 现 在 有 大 量 的 信息 可 以 通过 网 络 获得 。 对 我 们 的 计算 机 以 及 网 络 、 数 据 库 和 互联 网 
的 攻击 ， 可 能 会 给 企业 造成 损失 。 据 估计 ， 网 络 怒 怖 主义 可 能 会 给 企业 造成 数 十 亿美 元 
的 损失 。 例 如 ， 考 虑 一 个 银行 信息 系统 。 如 果 怒 怖 分 子 攻击 这 样 一 个 系统 ， 耗 尽 资 金 账 
户 ， 那 么 银行 可 能 会 损失 数 百 万 美元 ， 甚 至 数 十 亿美 元 。 通 过 使 计算 机 系统 准 痪 ， 几 人 小 
时 数 百 万 的 生产 力 可 能 会 丢失 ， 最 后 就 相当 于 同等 金钱 的 流失 。 即 使 在 一 些 事故 中 ， 简 
单 的 停电 也 可 能 导致 几 小 时 的 生产 力 下 降 ， 从 而 导致 重大 的 经 济 损失 。 因 此 ， 我 们 的 信 
息 系统 必须 是 安全 的 。 我 们 讨论 各 种 类 型 的 网 络 恐 怖 袭击 。 一 个 是 传播 病毒 和 特洛伊 木 
马 ， 其 可 以 删除 文件 和 其 他 重要 的 文档 ; 另 一 个 则 是 入 侵 计 算 机 网 络 。 

需要 我 们 注意 的 是 ， 威 胁 可 能 发 生 在 外 部 或 组 织 内 部 。 外 部 攻击 是 组 织 以 外 的 人 对 
计算 机 的 攻击 。 我 们 听 到 黑客 入 侵 计算 机 系统 ， 并 在 组 织 内 造成 严重 破坏 ， 就 是 外 部 攻 
击 。 有 黑客 开始 传播 病毒 ， 这 些 病毒 对 计算 机 系统 造成 极 大 的 伤害 。 但 更 为 险恶 的 问题 
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(0). 去 计算 开发 与 安全 








就 是 内 部 威胁 。 组 织 内 部 有 人 研究 了 业务 实际 ， 制 定 了 削弱 组 织 信息 资产 的 计划 。 这 些 
人 可 能 是 正规 员工 ， 甚 至 是 在 计算 机 中 心 工作 的 人 员 。 这 个 问题 是 相当 严重 的 ， 因 为 有 
人 可 能 伪装 成 内 部 人 员 去 造成 各 种 损害 。 在 本 书 接 下 来 的 几 个 部 分 中 ， 我 们 将 研究 数据 
挖 据 如 何 检测 并 尽 可 能 防止 这 种 攻击 。 


20.2.3 WENE 


恶意 入 侵 可 能 包括 侵入 网 络 、Web 客户 端 和 服务 器 、 数 据 库 和 操作 系统 。 许 多 网 
络 铠 怖 主义 袭击 是 由 于 恶意 入 侵 造 成 的 。 我 们 听 到 很 多 关于 网 络 入 侵 的 情况 。 这 里 发 生 
的 是 入 侵 者 试图 利用 网 络 ， 并 获得 正在 传输 的 信息 。 这 些 和 人 侵 者 可 能 是 人 类 入 侵 者 或 人 
们 制造 的 特洛伊 森马。 文件 也 可 能 发 生 被 入侵 的 情况 。 例 如 ， 可 以 伪装 成 别人 ， 登 录 别 
人 的 计算 机 系统 并 访问 文件 。 入 侵 也 可 能 发 生 在 数据 库 上 ， 扮 成 合法 用 户 的 入侵 者 可 能 
会 执行 SQL 查询 和 访问 他 们 未 被 授权 查看 的 数据 。 

基本 上 ， 网 络 铠 怖 主义 包括 恶意 入 侵 ， 以 及 通过 恶意 入 侵 或 其 他 方式 的 破坏 。 网 络 
安全 包括 试图 为 防止 网 络 攻 击 或 网 络 铠 怖 主义 提供 解决 方案 的 安全 机 制 。 当 我 们 讨论 恶 
意 和 人 侵 或 网 络 攻击 时 ， 可 能 需要 考虑 非 网 络 世界 ， 即 与 非 信息 相关 的 臣 怖 主义 ， 然 后 将 
这 些 攻击 转化 为 对 计算 机 和 网 络 的 攻击 。 例 如 ， 一 个 小 偷 可 以 通过 一 个 后 门 进入 建筑 
物 。 以 同样 的 方式 ,计算 机 入 侵 者 可 以 通过 某 种 后 门 进 入 计算 机 或 网 络 ， 这 个 后 门 是 由 
恶意 内 部 人 员 在 无 人 值守 的 情况 下 故意 构建 的 ， 另 一 个 例子 是 小 偷 用 面具 进入 银行 偷 
钱 。 这 里 的 类 比 是 入 侵 者 伪装 成 别人 ， 合 法 进入 系统 ， 并 取 走 所 有 的 信息 资产 。 这 里 的 
现实 世界 中 的 钱 将 转化 为 网 络 世界 的 信息 资产 。 也 就 是 说 ， 非 信息 相关 攻击 和 信息 相关 
攻击 之 间 有 许多 相似 之 处 。 然 后 ， 我 们 可 以 着 手 制定 针对 这 两 种 攻击 的 对 策 。 


20.2.4 信用 卡 欺诈 和 身份 盗用 


这 些 天 我 们 听 到 有 关 信 用 卡 欺诈 和 身份 穷 取 的 情况 。 在 信用 卡 欺诈 的 情况 下 ， 其 他 
人 持 有 一 张 别 人 的 信用 卡 ， 进 行 各 种 购买 行为 ， 当 卡 的 所 有 者 发 现 的 时 候 ， 可 能 为 时 已 
晚 。 那 时 ， 小 偷 可 能 已 经 离开 了 这 个 国家 。 

身份 盗用 是 更 严重 的 犯罪 行为 。 在 这 里 ， 将 自己 假设 为 男 一 个 人 ,通过 掌握 社会 保 
障 号 码 ， 并 以 其 他 人 的 名 义 ， 执 行 所 有 交易 。 这 种 交易 其 至 可 能 是 出 售 房屋 ， 并 将 收入 
存 进 用 于 欺诈 的 银行 账户 。 当 业主 发 现时 ， 为 时 已 晚 。 由 于 身份 被 次 用， 业主 很 有 可 能 
损失 数 百 万 美元 。 

我 们 需要 探索 使 用 数据 挖掘 来 进行 信用 卡 欺诈 检测 和 身份 次 用 检测 。 在 检测 信用 卡 
坎 诈 方面 已 经 做 了 一 些 努力 〈 见 本 章 参 考 文献 【CHAN99 ] ) 。 我 们 需要 积极 开展 检测 和 
防止 身份 盗用 工作 。 


20.2.5 对 关键 基础 设施 的 攻击 


对 关键 基础 设施 的 攻击 可 能 会 削弱 一 个 国家 及 其 经 济 实 力 。 基 础 设施 攻击 包括 攻击 
对 国家 运作 至 关 重 要 的 电信 线路 、 电 子 器 件 、 电 力 、 燃 气 、 水 库 、 供 水 、 食 品 供应 以 及 
其 他 基础 设施 。 
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第 20 章 ”安全 Bp 服务 ( 











对 关键 基础 设施 的 攻击 可 能 发 生 在 任何 类 型 的 攻击 之 中 ， 无 论 它们 是 非 信 息 相关 的 
或 信息 相关 的 ， 还 是 生物 恺 怖 主义 攻击 。 例 如 ， 可 以 攻击 运营 电信 业 的 软件 ， 并 关闭 所 
有 电信 线路 。 同 样 ， 运 行 电力 和 天 然 气 供应 的 软件 也 可 能 受到 攻击 ， 也 可 以 通过 炸弹 和 
爆炸 物 进 行 攻 击 。 也 就 是 说 ， 电 信 线 路 可 能 会 被 炸弹 袭击 。 攻 击 高 速 公 路 和 铁路 等 运输 
线路 也 是 对 基础 设施 的 攻击 。 

基础 设施 也 可 能 受到 飓风 和 攻击 关键 基础 设施 
地 震 等 自然 灾害 的 袭击 。 我 们 的 
主要 关注 点 是 那些 通过 恶意 攻击 
对 信息 和 非 信息 相关 的 基础 设施 



























































进行 的 攻击 。 我 们 的 目标 是 研究 自然 灾害: 
数据 挖掘 和 相关 数据 管理 技术 ， 

以 检测 和 防止 这 种 对 基础 设施 的 火灾 

攻击 。 图 20.3 说 明了 对 关键 基 图 20.3 ”对 关键 基础 设施 的 攻击 











础 设施 的 攻击 。 
20.2.6 用 于 网 络 安全 的 数据 挖掘 服务 


数据 挖掘 正在 应 用 于 解决 人 侵 检 测 和 审计 等 问题 。 例 如 ， 蜡 常 检 测 技术 可 用 于 检测 异 
常 模式 和 行为 。 链 接 分 析 可 用 于 追踪 病毒 制造 者 。 分 类 可 用 于 对 各 种 网 络 攻击 进行 分 组 ， 
然后 使 用 分 析 器 在 发 生 攻 击 时 检测 攻击 。 预 测 可 能 将 被 用 来 决定 未 来 的 攻击 ， 这 取决 于 通 
过 电子 邮件 和 电话 交谈 来 了 解 惑 怖 分 子 的 信息 。 此 外 ， 对 于 某 些 威胁 ， 非 实时 数据 挖掘 可 
能 就 足够 了 ， 而 对 于 某 些 其 他 威胁 (例如 网 络 和 人 侵 ) ， 我 们 可 能 就 需要 实时 数据 挖掘 。 许 
多 研究 人 员 正 在 研究 使 用 数据 挖掘 进行 针对 入 侵 的 检测 。 虽 然 我 们 需要 某 种 形式 的 实时 数 
据 挖掘 ， 也 就 是 说 ,结果 必 须 实时 生成 ， 我 们 还 需要 实时 构建 模型 。 例 如 ,信用卡 欺 诈 检 
测 是 一 种 实时 处 理 的 形式 。 然 而 ， 在 这 里 ， 模 型 通常 是 提前 建立 的 。 实 时 建 模 仍然 是 一 个 
挑战 。 数 据 挖掘 也 可 用 于 分 析 Web 日 志 以 及 分 析 审 计 跟 踪 。 根 据 数据 挖掘 工具 的 结果 ， 
可 以 确定 是 否 发 生 了 任何 未 经 授权 的 入侵 和 /或 是 否 提出 任何 未 经 授权 的 查询 。 
日 于 网 络 安 全 的 数据 挖掘 的 其 他 应 用 包括 分 析 审 计数 据 。 人 们 可 以 构建 一 个 包含 审 
计数 据 的 资料 库 或 仓库 ， 然 后 使 用 各 种 数据 挖 据 工 具 进行 分 析 ， 看 是 否 存在 潜在 的 异常 
现象 。 例 如 ， 某 些 用 户 组 可 能 会 在 上 午 3 点 到 5 点 之 间 访 问 数据 库 。 也 可 能 是 这 个 小 组 
正在 上 夜班 ， 在 这 种 情况 下 可 能 会 有 一 个 合理 的 解释 。 但 是 ， 如 果 这 个 小 组 也 在 上 午 9 
点 到 下 午 5 点 之 间 工 作 ， 那 么 这 可 能 就 是 一 个 不 寻常 的 事情 ; 另 一 个 例子 是 ， 一 个 人 
ELE PF 1 点 到 2 点 之 间 访 问 数据 库 ， 但 是 在 过 去 的 两 天 里 ， 他 一 直 在 上 午 1 点 到 2 点 
访问 数据 库 。 这 可 能 是 一 个 不 寻常 的 事件 ， 就 需要 进一步 的 调查 。 

内 部 威胁 分 析 也 是 来 自 于 国家 安全 和 网 络 安全 方面 的 问题 。 也 就 是 说 ， 在 公司 工作 
的 且 被 认为 是 可 信赖 的 人 ， 有 可 能 进行 间谍 活动 。 同 样 ， 那 些 能 够 正当 访问 计算 机 系统 
的 人 ， 也 可 能 会 制造 特洛伊 木马 和 病毒 。 抓 捕 这 样 的 钨 怖 分 子 比 在 组 织 之 外 抓 捕 人 怒 怖 分 
子 要 困难 得 多 。 一 个 人 可 能 需要 监视 公司 所 有 人 ， 包 括 系统 管理 员 的 访问 模式 ， 看 他 们 
是 否 在 执行 网 络 铠 怖 主义 活动 。 现 在 多 个 团体 在 进行 一 些 研究 将 数据 挖掘 应 用 于 这 些 应 
用 。 图 20. 4 为 用 于 网 络 安全 的 数据 挖掘 服务 。 
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1 云 计 算 开 发 与 安全 





虽然 数据 挖掘 可 用 于 检测 和 防 























息 。 有 关 隐 私 和 数据 挖掘 的 更 多 细 


入 侵 检测 


图 20.4 





推理 和 隐私 问题 。 比 如 ， 利 用 数据 挖 扩 
节 ， 请 参见 本 章 参考 文献 [THUR05 | 。 


恶意 软件 检测 





止 网 络 攻击 ， 





但 数据 挖掘 也 加 剧 了 一 些 安全 问题 ， 如 



































用 于 网 络 安全 
数据 挖 气 服 务 


内 部 威胁 检测 


j 于 网 络 安全 的 数据 挖掘 服务 





推理 问题 





20.3 目前 关于 安全 即 服 务 的 研究 


我 们 正在 UTD 开发 一 些 数据 挖掘 工具 ， 用 于 网 络 安全 目的 。 在 多 














论 了 一 个 这 样 的 入 侵 检测 工具 〈 见 本 章 参 考 文献 [AWAD09])。 可 以 将 入 侵 





图 破坏 资源 的 完整 性 、 机 密 性 或 可 


























过 程 中 获取 系统 来 调用 数据 的 例 程 ， 





mn 


E 的 任何 一 组 操作 。 随 着 系统 变 
于 设计 和 编程 的 错误 ,或 者 通过 使 用 各 种 “社交 工程 ”的 渗透 技术 ， 总 是 存在 可 利用 
的 漏洞 。 计 算 机 攻击 分 为 两 类 : 基于 主机 的 攻击 和 基于 网 络 的 攻击 。 基 于 主机 的 攻击 针 
对 机 器 ， 并 尝试 访问 该 机 器 上 的 特权 服务 或 资源 。 基 于 主机 的 莉 








届 技 术 ， 可 以 从 合法 的 响应 中 推断 出 敏感 关联 的 信 


第 19 章 中 ， 我 们 讨 


定义 为 试 


得 越 来 越 复 杂 ， 由 








Ff 检 测 通 常 使 用 从 审计 








该 过 程 跟 踪 每 个 用 户 所 做 的 所 有 系统 调用 。 


























基于 网 络 的 攻击 通过 故意 占用 或 破坏 网 络 资源 和 服务 ， 来 使 合法 用 户 难 以 访问 各 种 网 











络 服务 。 这 种 攻击 可 以 通过 发 送 大 量 


时 的 网 络 流量 














， 利 用 网 络 服务 中 的 已 知 故障 ， 





如 通过 使 





网 络 主机 过 载 等 来 实现 。 基于 网 络 的 攻击 检测 使 用 网 络 传输 数据 (BU iepdump) 查看 正在 











监视 的 机 器 上 的 通信 流 。 和 人 侵 检测 系统 分 为 两 类 : 异常 检测 系统 和 误 月 























检测 系统 。 











异常 检测 是 基于 偏离 已 建立 的 正常 网 络 流量 模式 ， 来 识别 恶意 流量 的 尝试 。 误 用 检 











测 是 基于 恶意 活动 的 已 知 模式 识别 
能 够 捕获 新 的 攻击 。 然 而 ， 新 的 合 
技术 的 重点 是 减少 漏 报 和 误 报 率 。 

我 们 最 近 在 书 中 讨论 的 当前 工 


























入 侵 的 能 力 。 

















具 包 括 电子 | 








和 僵尸 网 络 检测 ， 以 及 分 析 防 火 墙 策略 规则 ( 
说 明了 我 们 开发 的 各 种 工具 。 例 如 ， 





提取 如 “附件 数量 ”之 类 的 特征 ， 
数据 挖掘 工具 ， 并 开发 模型 。 最 后 























测 时 ， 我 们 使 用 在 各 种 网 站 上 发 布 的 训练 培训 和 测试 数据 集 。 类 似 地 ， 对 于 恶 





对 于 电子 由 








这 些 已 知 的 模式 被 称 为 签名 。 


b 件 蠕虫 检测 、 恶 意 代 码 检 测 、 


见 本 章 参考 文献 [MASU11]). 














b 件 蠕虫 检测 ， 我 们 首先 检查 

















异常 检测 


法 行为 也 可 能 被 误 判 为 攻击 ， 导 致 误 报 。 目 前 最 先进 


流量 检测 
图 20.5 





电子 邮件 并 


然后 使 用 如 SVM 或 朴素 贝 叶 斯 分 类 器 等 技术 来 训练 








我 们 测试 模型 

















4 并 确定 电子 邮件 是 否 有 病毒 /蠕虫 。 检 








意 代 码 检 


测 ， 我 们 使 用 汇编 代码 和 二 进 制 代码 来 提取 n - gram 特征 。 我 们 首先 使 用 SVM 技术 训 





练 数据 挖 据 工具 ， 然 后 测试 该 模型 。 乡 
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分 类 器 将 确定 代码 是 否 是 恶意 的 。 为 了 对 绥 冲 区 进 


第 20 章 





安全 即 服 务 ( 


行 溢出 检测 ， 我 们 假设 恶意 消息 包含 代码 ， 而 正常 消息 包含 数据 。 我 们 训练 SVM， 然 
后 测试 ， 看 消息 是 否 包 含 代 码 或 数据 。 有 关 在 云 中 提供 安全 即 服务 的 各 种 数据 挖掘 技术 














的 讨论 在 本 书 附录 B 中 给 出 。 有 些 细节 也 可 以 在 本 章 参考 文献 [AWAD09] 中 找到 。 


内 部 威胁 
检测 工具 






图 20.5 UTD 的 数据 挖掘 工具 


20.4 网 络 安全 应 用 程序 的 


恶意 软件 
检测 工具 








僵尸 网 络 
检测 工具 




















其 他 服务 





作为 云端 托管 的 其 他 候选 服务 包括 



























































电子 邮件 过 滤 、 刁 份 管理 








查 电子 邮件 ， 可 能 会 应 用 数据 挖掘 技术 ， 并 过 滤 出 可 疑 的 电子 邮件 。 我 们 开发 了 用 于 
邮件 蠕虫 检测 的 数据 挖掘 工具 。 在 身份 管理 的 情况 下 ， 组 
包 给 云端 。 需 要 注意 的 是 ， 这 不 是 云 验 证 ， 而 是 用 户 必 须 通 过 身份 验证 才能 访问 云 。 这 实 





E 和 数字 取证 。 这 些 服务 都 
是 计算 密集 型 的 。 在 电子 邮件 过 滤 服 务 的 情况 下 ， 组 织 可 以 将 该 服务 外 包 给 云端 。 云 将 检 


























iF 








织 将 把 识别 和 认证 用 户 的 处 理 外 


际 上 是 与 如 何 访问 组 织 的 资源 相关 。 然 而 ， 将 用 户 认证 留 给 云 而 不 是 组 织 。 在 进行 取证 方 



































实施 安全 服务 的 主要 障碍 就 
是 安全 本 号 。 也 就 是 说 ， 这 些 由 
云 实 现 的 安全 服务 必须 是 安全 
的 。 例 如 ， 如 果 云 要 执行 身份 管 
理 ， 则 必须 确保 该 进程 是 正确 
的 。 因 此 ， 将 高 度 安 全 的 功能 外 
包 给 云 仍然 是 一 个 挑战 。 图 20. 6 















































H, 这些 工 具 将 在 云端 托管 。 组 织 将 发 送 所 有 相关 数据 进行 云 取 证 。 是 
于 云 取证 ， 在 这 里 只 是 通过 云 进行 入 侵 检测 。 这 是 关于 组 














安全 即 
云 服务 











件 检 测 





图 20.6 安全 即 云 服务 


说 明了 可 以 在 云 上 实现 的 其 他 安全 服务 。 


20.5 总结 和 展望 


了 次 强调 ， 这 不 是 关 
织 外 包 给 云 的 取证 活动 。 


本 章 我 们 讨论 了 用 于 安全 的 数据 挖掘 服务 。 因 为 这 些 数 据 控 据 服务 是 计算 密集 型 
的 ， 因 此 它们 在 云 计 算 上 实施 是 理想 的 选择 。 主 要 执行 安全 功能 的 这 些 服务 称 为 安全 即 

















服务 。 我 们 首先 讨论 了 用 于 网 络 安全 的 数据 挖掘 ， 然 后 简要 概述 了 我 们 正在 开发 的 工 
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1 和 云 计 算 开 发 与 安全 





具 。 我 们 还 讨论 了 一 些 其 他 服务 ， 如 电子 邮件 过 滤 、 取 证 和 号 份 管理 。 

接 下 来 将 讨论 我 们 为 安全 性 服务 而 开发 的 一 些 基于 云 的 工具 ， 这 些 包括 云 上 的 恶意 
软件 检测 、 基 于 云 的 安全 信息 共享 以 及 基于 云 的 内 部 威胁 检测 。 我 们 将 在 本 书 的 第 七 部 
分 讨论 这 些 工 具 。 第 21 章 将 讨论 一 些 安全 即 服务 的 云 产品 。 


参考 文献 


[AWAD09] Awad, M., L. Khan, B. Thuraisingham, and L. Wang, Design and Implementation 
of Data Mining Tools, CRC Press, Boca Raton, FL, 2009. 

[BOLZ05] Bolz, E, K. Dudonis, and D. Schulz, The Counterterrorism Handbook: Tactics, 
Procedures, and Techniques, Third Edition Practical Aspects of Criminal & Forensic 
Investigations, CRC Press, Boca Raton, FL, 2005. 

[CHAN99] Chan, P, W. Fan, A. Prodromidis, and S. Stolfo, Distributed data mining in 
credit card fraud detection, JERE Intelligent Systems, 14(6), 47-74, 1999. 


[MASU11] Masud, M., L. Khan, and B. Thuraisingham, Data Mining Tools for Malware 
Detection, CRC Press, Boca Raton, FL, 2011. 

[THURO03] Thuraisingham, B., Web Data Mining Technologies and Their Applications in 
Business Intelligence and Counter-Terrorism, CRC Press, Boca Raton, FL, 2003. 

[THURO04] Thuraisingham, B., Managing Threats to Web Databases and Cyber Systems, Issues, 
Solutions and Challenges (eds: V. Kumar, J. Srivastava, Al. Lazarevic), Kluwer, MA, 
2004. 

[THURO5] Thuraisingham, B., Database and Applications Security, CRC Press, Boca Raton, 
FL, 2005. 



































264 


21.1 概述 








自从 我 们 在 2000 年 代 中 期 开始 知道 云 计算 以 来 ， 就 已 经 出 现 了 无 数 的 云 安全 解决 
方案 。 这 些 解 决 方案 可 以 分 为 两 类 : 第 一 类 产品 基本 上 为 云 提供 安全 保障 。 也 就 是 说 ， 
这 些 产品 可 以 保护 云 计 算 基 础 设施 、 平 台 或 应 用 程序 ; 第 二 类 产品 在 云 中 提供 安全 服 
务 。 这 些 服 务 包括 电子 邮件 安全 服务 、 网 页 过 滤 服 务 和 恶意 软件 检测 服务 。 

虽然 Symplified 等 一 些 公司 已 经 开发 出 主要 用 于 云 计算 的 解决 方案 ， 但 一 些 其 他 公 
司 已 经 采用 了 云 计算 的 安全 解决 方案 。 这 些 公司 包括 IBM 等 大 型 计算 机 公司 。 而 一 些 
其 他 公司 ， 如 McAfee 和 Symantec 是 通用 安全 解决 方案 的 提供 商 ， 这 些 公 司 现在 也 提供 
在 云 中 实施 的 安全 解决 方案 。 也 就 是 说 ， 它 们 提供 安全 即 服务 解决 方案 。 

在 本 章 中 ,我们 提供 各 种 云 安全 产品 的 概述 。 我 们 从 本 章 参 考 文献 [TECH] 里 进 
行 的 一 项 调查 中 获得 了 这 份 清单 。 我 们 对 这 些 产品 开展 了 调查 。 云 安全 产品 的 分 类 方法 
如 图 21. 1 所 示 。 本 章 的 结构 如 下 。 在 21.2 节 中 ， 我们 将 概述 几 个 云 安全 产品 ， 包 括 
IBM 和 Novell EKA H], McAfee 和 Symantec 等 安全 解决 方案 公司 ， 以 及 Symplified 和 
CloudPassage 等 云 安全 公司 。 在 21.3 节 对 本 章 进 行 总 结 。 














































































































云 安全 产品 分 类 





保护 一 个 云 安 提供 云 服务 的 去 安全 公司 : 


全 的 大 公司 : 安全 公司 : 如 Symplified, 
AMIBM, Novell McAfee, Symantec CloudPassage 














图 21.1 云 安 全 产品 分 类 


21.2 产品 概述 


Trend Micro (趋势 科技 ) : 网 络 安全 软件 及 服务 领域 的 全 球 领 导 者 ， 总 部 位 于 日 本 
东京 和 美国 硅谷 ， 提 供 包括 防 病毒 和 反 垃 圾 邮件 产品 〈 见 本 章 参 考 文献 [TREND]) 的 
安全 解决 方案 。 这 些 产 品 为 网 络 、Web 和 移动 应 用 提供 安全 解决 方案 。 该 公司 在 2008 
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年 进入 云 安 全 领域 ， 通 过 其 产品 “智能 保护 网 络 ” (Smart Protection Network ，SPN ) 。 该 
产品 的 目标 是 保护 客户 端 免 受 基于 Web 的 恶意 软件 的 侵扰 。 近 年 来 ， 该 产品 已 经 扩展 
到 安全 云端 ， 并 提供 广泛 的 云 安全 功能 ， 包 括 虚拟 化 安全 、 云 数据 安全 、 策 略 管理 和 
加 密 。 

McAfee; McAfee 是 全 球 最 大 的 专业 安全 技术 公司 ， 为 家 庭 用 户 以 及 企业 和 政府 提 
供 安 全 解决 方案 。 其 产品 包括 病毒 扫描 、 电 子 邮 件 和 网 络 安全 以 及 加 密 。 例 如 ，McAfee 
总 体 解 决 方案 由 各 种 安全 工具 组 成 ， 可 防范 恶意 软件 。 最 近 ，McAfee 为 安全 即 服务 提 
供 了 解决 方案 ( 见 本 章 参考 文献 [ MCAF] ) 。 通 过 这 项 服务 ， 客 户 可 以 获得 基于 云 的 数 
据 保护 、 电 子 邮件 保护 和 病毒 扫描 的 解决 方案 。MceAfee 现在 是 英特尔 公司 的 一 部 分 。 

CA fH: CA 科技 公司 的 前 身 为 国际 计算 机 协会 ， 是 一 家 大 型 软件 公司 。 它 开发 
了 系统 软件 ， 并 在 包括 大 型 机 和 个 人 计算 机 在 内 的 许多 平台 上 开发 了 应 用 软件 。 通 过 收 
购 多 家 公司 ， 近 几 年 来 ， 它 进入 了 云 计算 市 场 。 他 们 的 主要 产品 称 为 CA Cloud Minder, 
为 认证 、 刁 份 管理 和 单 点 登录 提供 解决 方案 。 

Symplified; 虽然 趋势 科技 和 McAfee 是 安全 解决 方案 公司 ， 并 且 CA 科技 是 一 家 软 
件 公司 ， 但 2006 年 成 立 的 Sympliied， 目 的 是 提供 云 安全 解决 方案 。 其 主要 内 容 是 为 云 
提供 身份 管理 解决 方案 ， 包 括 使 用 SAML 技术 进行 身份 验证 和 单 点 登录 ( 见 本 章 参考 文 
ER [SYMP] ) 。 

Symantec ( 赛 门 铁 克 ) : 赛 门 铁 克 以 人 工 智能 和 数据 库 软 件 公司 起 步 ， 然 后 发 展 到 
提供 安全 解决 方案 。 它 是 最 大 的 安全 解决 方案 公司 之 一 。 它 销售 诺顿 公司 防 病毒 产品 ， 
并 通过 收购 维尔 软件 提供 存储 解决 方案 。 赛 门 铁 克 提供 基于 云 的 安全 解决 方案 ， 包 括 病 
毒 扫 描 、 电 子 邮件 和 Web 安全 ( 见 本 章 参 考 文献 [SYMA ] ) 。 

Zscaler; Zscaler 成 立 于 2008 年 ， 面 向 网 络 流量 提供 基于 云 的 安全 即 服务 。 该 产品 
Jy Web 流量 提供 恶意 软件 保护 ， 本 质 上 是 提供 基于 策略 的 Web 访问 。 所 提供 的 服务 包 
括 防 病毒 扫描 、 反 垃圾 邮件 过 滤 、 反 间谍 软件 检测 和 URL 过滤 ( 见 本 章 参 考 文献 [ZS- 
CA] )。 需 要 注意 的 是 ，Symplified 为 云 提供 身份 和 访问 管理 ，Zscaler (如 Symatec 和 
McAfee) 在 云 中 提供 安全 即 服 务 。 然 而 ， 与 Symatec 和 McAfee 不 同 ，Zscaler 不 是 一 般 
的 安全 解决 方案 公司 。 

Panda Security (能 猜 安 全 ) : 熊猫 安全 是 一 家 总 部 位 于 西班牙 的 安全 公司 ， 成立 于 1990 
年 。 其 产品 包括 防 病毒 软件 、 垃 圾 邮件 检测 软件 、 防 火 墙 应 用 和 网 络 犯罪 预防 解决 方案 。 最 
近 ， 它 提供 基于 云 的 安全 解决 方案 。 也 就 是 说 ， 它 为 电子 邮件 和 互联 网 流量 保护 提供 了 安全 
服务 ( 见 本 章 参 考 文献 [PAND | ) 。 

White Hat ( AIE): 白 帽 安全 公司 是 作为 企业 和 政府 的 安全 解决 方案 的 提供 商 。 它 
还 提供 网 站 风险 管理 解决 方案 。2010 年 ， 白 帽 加 入 了 云 安全 联盟 。 最 近 ， 白 帽 提供 了 
一 个 名 为 Sentinel 的 基于 云 的 解决 方案 ， 为 网 站 ( 见 本 章 参考 文献 [WHIT]) 提供 了 抗 
压 安全 。 

CipherCloud; CipherCloud 为 云 提供 安全 解决 方案 。 特 别 是 ， 它 为 云 提供 加 密 解 决 方 
案 ， 以 便 云 客户 可 以 将 其 数据 安全 地 存储 在 云端 。 它 为 云 系统 提供 安全 解决 方案 ， 如 
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EN THARA 
SalesForce. com, With EC2, With S3 和 Forcel. com ( 见 本 章 参考 文献 [CIPH] ) $E 
要 注意 的 是 ， 尽 管 白 帽 安全 公司 和 Zscaler 等 公司 为 企业 提供 安全 服务 ,但 Symplified 和 
CipherCloud 可 为 云 提供 安全 解决 方案 。 

SecureAuth; SecureAuth 成 立 于 2005 年 ， 为 跨国 企业 开发 身份 提供 商 解决 方案 。 根 
据 本 章 参考 文献 [SECU] 所 述 ， 该 公司 将 单 点 登录 与 双 因 子 身份 验证 相 结合 。 最 近 ， 
SecureAuth 为 组 织 提 供 了 作为 云 服务 的 身份 管理 解决 方案 。 

CloudPassage; CloudPassage ( 见 本 章 参 考 文献 [CLOU]) 成 立 于 2010 年 ， 为 云 服 
务 器 提供 安全 性 ， 包 括 虚 拟 化 安全 。 其 安全 解决 方案 可 以 并 和 人 公有、 私有 和 混合 云 。 像 
Symplified 一 样 ， CloudPassage 的 成 立 ， 为 云 提供 安全 保障 。 

Dome9 Security; 如 本 章 参 考 文献 [DOME] 所 述 ，Dome9 Security 为 云 栈 提 供 安 全 保 
护 ， 以 防 黑 客人 侵 。 它 提供 了 各 种 安全 解决 方案 ,包括 策略 管理 、 基 于 角色 的 访问 控制 、 
安全 审计 和 强大 的 双 因 子 身份 验证 。 像 CloudPassage 一 样 ，Dome9 Security 为 云 提 供 安 全 解 
决 方案 。 

IBM; IBM 是 最 大 的 计算 机 公司 ,拥有 大 型 机 、 数 据 库 应 用 程序 和 安全 解决 方案 等 
多 种 产品 。 其 云 安 全 解决 方案 包括 数据 保护 、 服 务 器 安全 以 及 策略 管理 ( 见 本 章 参 考 
文献 [IBM] ) 。IBM 还 提供 用 于 保护 云 的 咨询 服务 。 

Novell; Novell 是 一 家 非常 大 的 软件 和 网 络 公 司 ， 为 协作 和 网 络 提供 了 各 种 解决 方 
Ro Novell 的 云 安 全 解决 方案 称 为 Novell 云 安全 服务 ( 见 本 章 参 考 文献 [NOVE ] ) ， 它 
可 以 通过 IlaaS, SaaS 和 PaaS 级 别 的 云 提供 商 为 组 织 提供 身份 管理 解决 方案 。 

TreatMetrix; 如 本 章 参 考 文献 [THRE] 所 述 ，TreatMetrix 提供 各 种 安全 解决 方案 ， 包 
括 中 确定 在 线 访问 者 是 否 合法 ; 四 恶意 软件 检测 ; @@ 在 苏 诈 和 误 用 中 保护 移动 应 用 程序 。 
其 基于 云 的 解决 方案 通过 云 提供 欺诈 检测 。 就 像 熊 猫 安全 ， 它 通过 云 提供 安全 服务 。 

Okta: 如 本 章 参考 文献 [OKTA] 所 述 ，Okta 提供 目录 服务 、 单 点 登录 、 强 身份 验 
证 、 配 置 、 工 作 流 和 内 置 报告 。 这 些 服务 通过 云 提供 ， 并 与 组 织 的 身份 管理 服务 相 集 
成 。SAP 和 Informatica 等 公司 使 用 Okta 安全 服务 。 

戴尔 数据 保护 : 戴尔 提供 企业 范围 的 数据 保护 。 它 本 质 上 是 提供 加 密 解 决 方案 。 如 
本 章 参 考 文献 [DELL] 所 述 ， 他 们 的 产品 保护 系统 磁盘 和 外 部 媒体 ， 并 且 包 含有 强大 
的 远程 管理 、 审 计 和 策略 设置 功能 。 

Awareness Technologies; Awareness Technologies 为 员工 监视 和 内 部 威胁 保护 提供 安全 
解决 方案 。 此 外 ， 其 InterGuard 产品 套件 还 提供 了 Web 扫描 、 数 据 丢 失 预 防 、 笔 记 本 电 
脑 恢 复 监控 、 电 子 邮 件 和 短信 ( 见 本 章 参 考 文献 [AWAR]) 的 解决 方案 。 它 也 是 通过 
云 提供 安全 服务 。 

HyTrust: HyTrust 为 虚拟 化 软件 提供 安全 保障 。 如 本 章 参考 文献 [HYTR] 所 述 ， 
它 在 基于 VMware 的 虚拟 化 基础 设施 的 控制 层面 上 实施 策略 。HyTrust 是 虚拟 设备 ， 并 为 
虚拟 对 象 分 配 标签 ， 随 后 在 标签 上 执行 策略 。 

Vyatta: 如 本 章 参 考 文献 [VYAT] 所 述 ，Vyatta 为 Internet 协议 提供 VPN 产品 ， 以 
及 虚拟 防火 墙 和 虚拟 路 由 器 。 它 的 按 需 应 变 的 网 络 安全 解决 方案 正在 纳入 虚拟 化 、 多 核 
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) 去 计算 开发 与 安全 








的 云 计 算 平台 。 











StillSecure: 如 本 章 参 考 文献 [STIL] 所 述 ，StillSecure 提供 网 络 访问 控制 和 安全 托 

















服务 产品 ， 客 户 可 以 在 其 云 平台 下 载 和 安装 。 


管 服务 。 这 些 受 管理 的 安全 服务 用 来 保护 网 络 和 数据 。 最 近 ，StillSecure 推出 了 云 监控 


SafeNet; 如 本 章 参考 文献 [SAFE] 所 述 ，SafeNet 公司 为 各 种 企业 提供 数据 保护 解 
决 方案 。 它 本 质 上 提供 了 加 密 技术 。SafeNet 公司 的 云 安全 产品 ProcutV 为 数据 中 心 以 及 


云 中 的 数据 提供 加 密 解 决 方案 。 











Proofpoint ; 如 本 章 参 考 文献 [PROO] PR, Proofpoint 提供 了 安全 即 服 务 解 决 方 
案 ， 用 于 保护 企业 数据 。 它 还 确保 满足 数据 的 管理 、 合 规 性 和 法 规 要 求 。 提 供 的 安全 解 




















决 方案 使 组 织 能 够 将 恶意 内 容 从 数据 中 去 除 ， 并 防止 窃取 或 丢失 敏感 数据 。 














Commtouch; Commtouch 是 一 家 在 德国 成 立 的 公司 ， 提 供电 子 邮件 安全 。 




















它 还 提供 


防 病毒 保护 ， 以 及 垃圾 邮件 和 网 络 扫描 的 服务 。 如 本 章 参 考 文献 [COMM] 所 述 ， 
Commtouch 的 全 球 视 野 云 技术 通过 分 析 网 络 流量 和 电子 邮件 流量 ,来 提供 安全 即 服 务 。 























分 析 的 结果 被 纳入 到 电子 邮件 和 网 络 安 全 ， 以 及 防 病毒 保护 的 解决 方案 中 。 











21.3 总 结 和 展望 





本 章 概述 了 为 云 提 供 安全 解决 方案 或 为 各 种 业务 提供 安全 服务 的 各 种 商业 产品 。 其 
中 一 些 产品 主要 用 于 云端 或 在 云端 运行 。 一 些 其 他 解决 方案 已 经 采用 了 一 般 安全 产品 ， 
并 将 其 应 用 于 云端 。 云 的 安全 解决 方案 包括 加 密 、 虚 拟 化 安全 和 云 览 控 。 安 全 服务 包括 

































































身份 管理 、 恶 意 软 件 检测 、 网 络 和 电子 邮件 过 滤 。 





我 们 选择 了 本 章 参 考 文献 [TECH] 提供 的 商业 云 产 品 调查 中 所 列 出 的 安全 产品 。 
不 过 ， 我 们 对 这 些 产品 展开 了 自身 的 调查 。 随 着 云 技术 的 发 展 ， 我 们 预计 产品 数量 将 迅 























速 增长 。 这 些 产 品 将 提供 云 安全 解决 方案 ， 或 利用 云 提供 安全 服务 。 
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第 五 部 分 总 结 








第 三 部 分 描述 了 云 计算 概念 ， 第 四 部 分 描述 了 云 计算 实验 系统 ， 相 应 地 ， 本 部 分 描 
述 了 云 计 算 安全 概念 、 技 术 和 产品 。 

第 16 章 讨 论 了 云 计 算 安 全 的 各 种 概念 。 首 先 ， 讨 论 了 云 计 算 安 全 和 管理 。 其 次 ， 
我 们 讨论 了 云 的 安全 架构 。 再 次 ， 讨 论 了 云 的 访问 控制 和 身份 管理 。 其 后 ， 讨 论 了 云 的 
数据 安全 问题 。 之 后 ， 我 们 概述 了 云 的 隐私 、 合 规 性 和 取证 。 最 后 ， 我 们 讨论 了 如 加 密 
解决 方案 、 网 络 安 全 问题 、 业 务 连续 性 、 操 作 安 全 性 和 云 的 物理 安全 性 等 方面 。 

第 17 章 讨论 了 云 计算 功能 安全 的 各 个 方面 。 我 们 概述 了 我 们 的 云 计 算 框 架 ， 然 后 
讨论 了 云 的 虚拟 化 、 网 络 、 数 据 存 储 和 管理 的 安全 性 。 

第 18 章 讨论 了 数据 管理 功能 安全 ， 然 后 描述 了 云 对 这 些 功能 的 影响 。 特 别 是 ， 我 
们 讨论 了 自主 安全 、 对 象 安全 、 分 布 式 数据 管理 安全 和 云 安 全 的 异 构 数 据 集成 。 

第 19 章 概述 了 NIST 所 讨论 的 云 计算 安全 指南 。 指 南 包 括 部 署 模型 、Web 服务 以 及 
管理 、 合 规 性 、 可 用 性 、 身 份 和 访问 管理 、 体 系 结构 、 事 件 响应 、 信 任 、 软 件 隔离 和 数 
据 保护 。 

第 20 章 讨 论 了 安全 即 服务 的 概念 ， 并 以 用 于 安全 的 数据 挖掘 服务 为 例 进 行 了 解释 。 
这 些 数据 挖掘 服务 是 在 云 计 算 上 实施 的 理想 选择 。 首 先 讨论 了 用 于 网 络 安全 的 数据 挖 
气 ， 然 后 简要 介绍 了 我 们 正在 开发 的 工具 。 

第 21 章 概述 了 为 云 提供 安全 解决 方案 ， 或 为 各 种 业务 提供 安全 服务 的 各 种 商业 产 
品 。 其 中 一 些 产品 主要 用 于 云端 或 在 云端 运行 。 其 他 一 些 解决 方案 已 经 采用 了 一 般 安全 
产品 并 将 其 应 用 于 云端 。 云 安全 解决 方案 包括 加 密 、 虚 拟 化 安全 和 云 监控 。 安 全 即 服务 
包括 身份 管理 、 亚 意 软 件 检测 以 及 网 络 和 电子 邮件 过 滤 。 

































































































































































270 


第 六 部 分 云 计算 安全 实验 系统 


第 六 部 分 简介 





既然 我 们 已 经 提供 了 关于 云 计 算 安 全 的 概述 ， 那 么 接 下 来 将 给 出 一 些 我 们 已 经 开发 
的 云 计算 安全 实验 系统 。 这 将 使 读者 更 好 地 了 解 我 们 是 如 何 利用 云 系统 中 的 各 种 访问 控 
制 模型 的 。 第 六 部 分 由 3 章 组 成 ， 即 第 22 章 、 第 23 章 和 第 24 章 。 在 第 22 章 中 讨论 在 
云 中 的 关系 数据 查询 处 理 器 安全 。 云 中 的 语义 Web Bc He t ii Lh H AS 























论 。 云 中 信息 的 安全 集成 将 在 第 24 章 中 进行 讨论 。 














全 在 第 23 章 讨 














我 们 基于 云 的 安全 关系 数据 管理 器 利用 Hive 进行 数据 管理 ， 并 构建 基于 XACML 的 
安全 ， 我 们 构建 了 一 个 SPARQL & 














访问 控制 策略 引 敬 。 关 于 云 中 的 语义 Web 数据 人 处 型 
































询 优 化 器 ， 并 开发 了 基于 XACML 的 访问 控制 模型 。 





统 是 文献 中 早期 讨论 的 云 数据 安全 管理 系统 之 一 。 


最 后 ,为 了 在 云 中 实现 安全 的 信息 
集成 ， 我 们 建立 了 一 个 用 于 在 AMAZON S3 上 存储 数据 的 安全 模块 。 我 们 开发 的 实验 系 
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第 22 章 ， 对 关系 数据 进行 安全 的 云 查 询 处 理 


22.1 概述 





WWW 被 设想 为 使 用 互联 网 ( 见 本 章 参 考 文献 [WWW1]) 访问 的 互联 超 文 本 文件 
系统 。 随 着 亚马逊 (Amazon. com ) 和 社交 网 络 应 用 (如 Facebook 和 Twitter ) 等 电子 商 
务 的 出 现 , 日 常 产 生 的 数据 量 是 巨大 的 ( 见 本 章 参考 文献 [AXON10] ) 。 据 估计 ， 在 
2009 年 由 个 人 产生 的 数据 量 将 超过 2008 年 人 类 全 年 产生 的 数据 量 ( 见 本 章 参 考 文献 
[WEIG09] ) 。 一 个 组 织 所 产生 的 大 量 数据 ， 如 果 和 其 他 组 织 或 研究 人 员 所 拥有 的 数据 
相关 联 的 话 ， 那 么 这 些 数据 对 于 后 者 来 说 可 能 是 有 价值 的 。 对 于 各 种 政府 情报 机 构 更 是 
如 此 。 这 导致 一 种 趋势 : 商业 组 织 和 大 学 之 间 建 立 了 伙伴 关系 进行 合作 研究 (ULAR 
参考 文献 [NOKI] ) ; 商业 组 织 之 间 也 建立 伙伴 关系 ， 进 行 数据 共享 去 创造 更 好 的 应 用 
程序 ( 见 本 章 参 考 文献 [SALE08]). 

在 组 织 之 间 进 行 这 种 合作 过 程 ， 有 两 个 主要 障碍 : 一 是 安排 一 个 大 型 、 通 用 的 数据 
存储 区 域 ， 二 是 提供 对 共享 数据 的 安全 访问 。 全 球 各 地 的 企业 投入 大 量 资源 ， 以 尽量 减 
少 存储 成 本 ， 并 引入 云 计 算 服务 ， 这 样 成 本 的 预算 将 进一步 降低 〈 见 本 章 参考 文献 
[ALLIO]) 。 此 外 ， 尽 管 各 个 组 织 在 安全 性 方面 支出 大 量 的 年 度 预算 ， 但 这 还 不 足以 防 
止 安全 漏洞 〈 见 本 章 参 考 文 献 [SAWY10，FIRS10] ) 。 在 本 章 中 ,我们 提出 了 一 个 基于 
Web 的 系统 (Hive 访问 控制 ) ， 旨 在 通过 将 云 计算 技术 与 基于 策略 的 安全 机 制 相 结合 3 
实现 上 述 目 标 。 这 个 想法 部 分 来 自 于 身份 与 访问 管理 云 安 全 联盟 ( 见 本 章 参 考 文献 
[KUMA10] ) 和 我 们 以 前 使 用 XACML 策略 的 工作 ( 见 本 章 参考 文献 [PAR009]) Æ 
议 。 我 们 将 HDFS ( 见 本 章 参考 文献 [BORT10] ) 与 Hive ( 见 本 章 参考 文献 [APACa] ) 
相 结 合 ， 为 参与 该 项 目的 组 织 提 供 了 一 个 共同 的 存储 区 域 。 除 此 之 外 ， 我 们 已 经 使 用 了 
基于 策略 的 XACML ( 见 本 章 参考 文献 [MOSE05] ) 安全 机 制 来 对 共享 数据 提供 细 粒 度 
的 访问 控制 。 我 们 的 系统 根据 可 以 运行 的 查询 类 型 (如 SELECT 和 INSERT) 将 用 户 分 
为 几 组 ， 并 基于 加 盐 哈 希 技术 为 用 户 提供 安全 的 登录 功能 。 当 用 户 登 录 到 我 们 的 系统 
时 ， 根 据 用 户 所 属 的 组 ， 他 /她 被 提供 不 同 的 选项 。 我 们 允许 协作 组 织 以 关系 表 和 视图 
的 形式 ， 将 数据 加 载 到 共享 存储 空间 。 用 户 才 可 以 为 用 户 组 的 表 / 视 图 定义 细 粒 度 的 
XACML 访问 控制 策略 。 用 户 还 可 以 根据 所 拥有 的 凭证 来 查询 整个 数据 库 。 我 们 在 系统 
中 提供 了 一 些 基 本 的 查询 重 写 规 则 ， 从 Hive (HiveQL) 的 查询 语言 中 抽象 出 用 户 。 这 
允许 他 们 在 Web 应 用 程序 中 输入 常规 的 SQL 查询 ， 这 个 查询 是 使 用 基本 重 写 规则 转换 
的 HiveQL。 我 们 的 系统 还 允许 新 用 户 注册 ,但 只 有 指定 的 特殊 “管理 员 ” 用 户 才 可 以 
将 这 些 用 户 分 配给 适当 的 组 。 我 们 做 出 的 贡献 包括 : 

272 











































































































































































































































































































第 22 章 对 关系 数据 进行 安全 的 云 查询 处 理 《 司 











Bl 使 用 Hive 存储 在 HDFS 中 的 安全 加 载 和 查询 共享 数据 的 机 制 。 

Bl 在 HDFS 和 Hive 之 外 的 其 他 安全 层 使 用 基于 XACML 策略 的 机 制 。 

B 基本 的 查询 重 写 规 则 ， 用 于 从 HiveQL 中 抽象 出 用 户 ， 并 允许 他 /她 输入 SQL 
查询 。 

B 将 上 述 机 制 并 人 基于 网 络 的 系统 。 

本 章 的 结构 如 下 : 22. 2 节 介 绍 云 中 信息 安全 存储 和 检索 领域 的 相关 工作 。 在 22.3 
节 中 ， 介 绍 我 们 的 架构 ， 用 于 解决 基于 云 计 算 技 术 和 基于 XACML 策略 的 安全 机 制 的 大 
规模 数据 安全 共享 问题 。 此 外 , 在 22.4 5B, 我们 将 介绍 我 们 的 实施 细节 。 最 后 ， 
22. 5 节 介 绍 我 们 的 结论 和 未 来 的 工作 。 图 22. 1 说 明了 本 章 的 内 容 。 






































基于 关系 数据 的 
安全 云 查询 处 理 


安全 的 存 系统 架 实施 、 实 
储 和 检索 构 与 设计 险 和 结果 


图 22.1 使 用 关系 数据 进行 安全 云 查 询 处 理 (YEA Thuraisingham, 
B., M. V. Khadilkar, A. Gupta, M. Kantarcioglu 和 L. Khan, Secure data storage and 
retrieval in the cloud. CollaborateCom, Chicago, IL, 1-8, 2010. ) 





























22.2 相关 工作 











我 们 将 云 计算 技术 与 安全 机 制 相 结合 ， 使 合作 组 织 能 够 安全 地 共享 大 量 数据 。 自 云 
计算 技术 诞生 以 来 ， 研 究 人 员 、 商 业 组 织 和 媒体 对 这 些 技术 的 安全 问题 均 产 生 了 浓厚 的 
兴趣 〈 见 本 章 参考 文献 [TALB09] 、[ MITC096 ] ) 。 这 种 兴趣 导致 了 商业 组 织 (LAKE 
参考 文献 [WIND] 、[ AMAZ09] [OMAL09]) 的 大 规模 研发 工作 。 与 云 计 算 安 全 相关 
的 一 部 分 工作 是 一 直 侧 重 在 基础 架构 层面 实施 安全 性 。 在 本 章 参 考 文献 [ OMALOO ] 
中 ， 作 者 介绍 了 他 们 在 Hadoop 中 的 安全 观 。 从 而 在 Hadoop 发 现 了 一 些 安全 隐患 ， 并 为 
此 提供 了 解决 方案 。 这 些 解决 方案 已 经 在 Hadoop v0. 20 的 beta 版 本 中 实现 。 这 一 开发 
工作 是 保护 云 基础 设施 的 重要 一 步 ， 但 仅 在 其 初级 阶段 。 我 们 系统 的 目标 是 在 Hadoop 
提供 的 安全 性 之 上 添加 男 一 层 安全 性 。 一 旦 Hadoop 提供 的 安全 性 变 得 强大 ， 它 会 增强 
我 们 系统 的 有 效 性 。 
AWS 是 云 中 的 一 种 网 络 服务 基础 设施 平台 ( 见 本 章 参 考 文献 [ AMAZ]) 。 本 章 参 
考 文献 [AMAZ09] 提供 了 与 AWS 相关 的 安全 方面 的 概述 ， 例 如 物理 安全 性 、 网 络 安 
全 性 和 AWS 安全 性 。 我 们 的 系统 与 AWS 不 同 ， 因 为 我 们 的 云 基础 设施 完全 是 私有 的 ， 
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而 AWS 的 基础 设施 处 在 公有 和 领域。 这 个 相互 区 别 的 因素 使 得 我 们 的 基础 设施 “信任 
度 ” 超 过 AWS 基础 架构 ， 其 中 AWS 的 数据 必须 以 加 密 格 式 存储 ， 因 为 它 是 公有 领域 
的 。 未 来 ， 我 们 打算 扩大 我 们 的 工作 范围 ， 包 括 公 有 云 和 私有 云 。 

Windows Azure 平台 是 在 Microsoft 数据 中 心 ( 见 本 章 参 考 文献 [WIND] ) 中 托管 的 
互联 网 规模 的 云 计算 服务 平台 。 本 章 参 考 文献 [MARS10] 概述 了 为 Windows Azure 平 
台 设 计 和 开发 更 安全 应 用 程序 的 安全 挑战 和 推荐 方法 。 然 而 ， 根 据 本 章 参 考 文献 
[BROD10] Windows Azure 平台 适用 于 构建 新 应 用 程序 ， 移 植 现 有 应 用 程序 并 不 是 最 佳 
选择 。 我 们 没有 使 用 Windows Azure 平台 的 主要 原因 ， 是 希望 将 现 有 的 应 用 程序 移植 到 
开源 系统 ， 而 不 是 像 Windows Azure 那样 从 头 开 始 编写 代码 。 我 们 也 不 想 绑 定 到 Win- 
dows 框架 ， 而 是 想 允 许 我 们 的 工作 在 任何 类 型 的 系统 上 都 可 以 使 用 。 一 旦 平台 文 持 使 
用 虚拟 机 运行 现 有 应 用 程序 ( 见 本 章 参 考 文献 [BROD10] ) ， 我 们 就 可 以 在 Windows 
Azure 平 台 上 测试 我 们 的 系统 。 

























































































22.3 系统 架构 





在 本 节 中 将 介绍 我 们 的 架构 ， 它 可 以 安全 地 访问 大 型 公共 存储 空间 (uU), Mani 
允许 合作 组 织 间 可 靠 地 共享 数据 。 我 们 首先 对 架构 进行 概述 ， 然 后 讨论 其 每 个 组 件 层 。 

图 22. 2 显示 了 系统 的 架构 。 图 中 的 每 个 矩形 代表 了 框架 的 不 同 组 成 部 分 。 篆 头 的 
各 种 线条 样式 ， 表 示 可 以 使 用 此 系统 完成 特定 任务 的 控制 流程 。 接 下 来 ， 我 们 介绍 架构 
中 的 每 个 组 件 层 。 


22.3.1 Web 应 用 层 


Web 应 用 层 是 系统 向 用 户 提供 访问 云 基础 架构 的 唯一 接口 。 我 们 根据 分 配给 用 户 
的 权限 提供 不 同 的 功能 。Web 应 用 程序 提供 可 由 任何 用 户 登 录 系 统 的 登录 页 面 。 我 们 
使 用 Java 简化 加 密 (Java — Simplified encryption， 简 称 为 JASYPT) 库 的 ( 见 本 章 参 考 文 
Bk [JASY]) 加 盐 哈 希 技术 ， 将 用 户 名 和 密码 存储 在 文件 中 。 此 外 ， 该 文件 存储 在 任何 
用 户 无 法 访问 的 安全 位 置 。 目 前 ， 系 统 支 持 3 种 类 型 的 用 户 : 

B 只 能 查询 现 有 表 / 视 图 的 用 户 ; 

图 除了 查询 所 有 表 / 视 图 之 外 ， 还 可 以 创建 表 / 视 图 并 在 其 上 定义 XACML 策略 的 
用 户 ; 

B 除了 以 上 的 功能 之 外 ， 一 个 特殊 的 “管理 员 ” 用 户 还 可 以 将 新 用 户 分 配给 上 述 
类 型 用 户 。 


22.3.2 ZQL 解析 器 层 


ZQL 解析 器 ( 见 本 章 参考 文献 【ZQL] ) 层 使 用 用 户 提 交 的 任何 查询 作为 输入 ， 不 

管 查 询 被 解析 成 功 还 是 向 用 户 返 回 错误 消息 ， 都 会 继续 执行 XACML 策略 评估 程序 。 

ZQL 解析 器 是 一 个 用 Java 编写 的 SQL 解析 器 ， 它 将 SQL 查询 作为 输入 ， 并 用 查询 (I 
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图 22.2 系统 架构 


本 章 参考 文献 [ZQL] ) 的 不 同 部 分 填充 不 同 的 Java 向 量 。 例 如 ， 以 下 查询 : 

SELECT a.id, a.name FROM a WHERE a.id > 5. 

ZQL 解析 器 解析 查询 ， 并 为 查询 的 每 个 部 分 (SELECT, FROM fll WHERE) 构造 不 
同 的 Java 向 量 。 在 我 们 的 系统 中 ， 上 述 查 询 的 SELECT 子 句 中 的 属性 名 称 向 量 将 返回 到 
Web 应 用 层 ， 用 于 显示 查询 返回 的 结果 。FROM 子 句 中 的 表 / 视 图 名 称 向 量 传递 给 
XACMI 策 略 计 算 器 ， 以 确保 当前 用 户 具有 访问 查询 中 指定 的 所 有 表 / 视 图 的 权限 。 如 果 
评估 者 确定 当前 用 户 具有 所 需 的 权限 ， 则 会 进一步 处 理 查 询 ， 否 则 将 向 Web 应 用 层 返 
回 错误 消息 。 目 前 ，ZQL 解析 器 支持 DELETE, INSERT, SELECT 和 UPDATESQL 语句 。 
我 们 未 来 的 工作 涉及 添加 对 其 他 关键 字 (如 CREATE, DROP 等 ) 的 文 持 。 
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22.3.3 XACML 策略 层 


XACML 是 一 种 基于 XML 的 语言 ， 用 于 定义 资源 访问 控制 策略 。 并 且 使 用 相同 的 语 
言 来 确定 是 否 允 许 访问 基于 策略 定义 的 特定 资源 ( 见 本 章 参考 文献 [ZQL])。 接 下 来 ， 
我 们 解释 在 框架 中 如 何 定 义 和 使 用 XACML 策略 。 
22.3.3.1 XACML 策略 构建 器 

在 我 们 的 框架 中 ， 用 户 定义 的 表 和 视图 被 视 为 构建 XACML 策略 的 资源 。 此 外 ， 针 
对 系统 提供 的 多 种 查询 涉及 的 资源 ， 定 义 了 基于 角色 的 访问 控制 ( 见 本 章 参 考 文献 
[FERR92] [SAND96]) 策略 。 对 于 我 们 框架 所 文 持 每 种 类 型 的 查询 ， 定 义 了 此 类 型 
与 允许 运行 该 类 型 查询 的 所 有 用 户 之 间 的 映射 。 以 下 给 出 了 此 类 映射 的 示例 列表 : 

INSERT admin userl user2 

SELECT admin userl user3 

在 我 们 的 系统 中 ， 用 户 想 要 创建 的 每 个 表 / 视 图 都 可 以 选择 上 传 自己 预定 义 的 XAC- 
ML 策略 ， 或 让 框架 为 它们 构建 一 个 策略 。 如 果 用 户 选择 后 一 个 选项 ， 它 们 还 必须 指定 
表 / 视 图 上 人 允许 的 查询 种 类 (例如 INSERT, SELECT 等 ) 。 然 后 ， 我 们 使 用 Sun 的 XAC- 
ML 实现 ( 见 本 章 参考 文献 [SUN] ) 去 为 该 表 / 视 图 构建 由 特定 用 户 来 指定 组 的 策略 。 
22.3.3.2 XACML 策略 评估 器 

我 们 的 系统 使 用 Sun 的 XACML 实现 〈 见 本 章 参考 文献 [SUN] ) ， 来 评估 当前 用 户 是 
否 可 以 访问 在 任何 用 户 查询 中 定义 的 所 有 表 / 视 图 。 如 果 授 予 所 有 表 / 视 图 的 查询 权限 ， 则 
可 进一步 处 理 查询 ， 和 否则 将 向 用 户 返回 错误 消息 。 策 略 评估 器 在 常规 用 户 查询 执行 期 间 ， 
以 及 在 创建 视图 期 间 都 使 用 ， 因 为 在 Hive 中 创建 视图 的 唯一 方法 ， 是 通过 在 现 有 表 / 视 图 
上 指定 SELECT 查询 。 在 创建 视图 之 前 ， 当 前 用 户 必须 能 够 访问 此 SELECT 查询 中 指定 的 
所 有 表 / 视 图 。 
22.3.3.3 ”基本 查询 重 写 层 

该 层 使 我 们 能 够 在 用 户 和 HiveQL 之 间 添 加 男 一 层 抽象 屋 ， 人 允许 用 户 根 据 HiveQL if 
法 输入 重 写 的 SQL 查询 。 在 我 们 目前 的 系统 中 ， 为 用 户 指 定 的 SQL 查询 提供 了 两 个 基 
本 的 重 写 规 则 。 

HiveQL 不 允许 查询 中 的 FROM 子 句 中 有 多 个 表 ， 而 可 以 将 这 种 查询 作为 一 系列 
JOIN 语句 来 给 出 。 通 过 允许 用 户 对 多 个 表 使 用 常规 SQL 查询 ， 从 而 将 用 户 从 事实 中 抽 
象 出 来 ， 这 多 个 表 来 自 FROM FAJ, FROM 子 句 也 将 转换 为 符合 HiveQL 语法 的 JOIN if 
名 序列 。 以 下 是 一 个 例子 : 

SELECT a.id, b.age FROM a, b; — SELECT a.id, b.age FROM a JOIN b; 

首先 ，HiveQL 使 用 SQL 的 INSERT - SELECT 语句 的 修改 版 本 ，INSERT OVER- 
WRITE TABLE < 表 名 称 > SELECT， 而 不 是 INSERT INTO < 表 名 称 > SELECT。 其 次 ， 
我 们 通过 允许 他 /她 输入 传统 的 INSERT INTO < 表 名 称 > SELECT, 最后， 将 其 重 写 为 
HiveQL 的 INSERT OVERWRITE TABLE < 表 名 称 > SELECT， 去 把 用 户 抽象 出 来 。 以 下 
是 一 个 例子 : 
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INSERT INTO a SELECT * FROM b; 一 INSERT OVERWRITE TABLE a 

SELECT * FROM b. 

作为 我 们 未 来 工作 的 一 部 分 ， 我 们 计划 用 完整 的 查询 重 写 引擎 中 更 复杂 的 规则 ， 去 
扩展 这 些 基 本 的 重 写 规则 。 
22.3.3.4 Hive 层 

Hive 是 建立 在 Hadoop 之 上 的 数据 仓库 基础 架构 。Hive 提供 了 在 基础 HDFS 中 构 
建 数据 的 能 力 以 及 查询 这 些 数据 的 功能 。 图 22. 2 中 ， 这 一 层 的 表格 与 HDFS 图 层 中 
文件 之 间 的 箭头 ， 表 示 Hive 中 的 每 个 表格 都 作为 文件 存储 在 HDFS 中 。 这 些 文件 包 
含 此 表 所 代表 的 数据 。 由 于 视图 只 是 使 用 SELECT 查询 创建 的 Hive 中 的 逻辑 概念 ， 
因此 层 中 的 视图 和 HDFS 层 中 的 文件 之 间 没 有 箭头 。 在 我 们 的 框架 中 ，Hive 用 于 构建 
将 由 合作 组 织 共享 的 数据 。 此 外 ， 我 们 使 用 Hive SQL 查询 语言 来 访问 这 些 数 据 。 在 
我 们 的 系统 中 使 用 Hive 的 优点 是 用 户 可 以 使 用 熟悉 的 类 似 SQL 的 语法 来 查询 数据 。 
22.3.3.5 HDFSE 

HDFS 是 一 种 分 布 式 文件 系统 ， 被 设计 用 于 在 基本 硬件 ( 见 本 章 参 考 文献 
[BORTIO]) 上 运行 。 我 们 框架 中 的 HDFS 层 存储 与 Hive ( 见 本 章 参 考 文献 [THUS091]) 
中 创建 的 表 相 对 应 的 数据 文件 。 我 们 的 安全 假设 是 这 些 文件 既 不 能 使 用 Hadoop f]. (I. 
本 章 参考 文献 [ APACb]) Web 界面 ， 也 不 能 使 用 Hadoop 的 命令 行 接口 (Command 
Line Interface，CLI) ， 只 能 使 用 我 们 的 系统 。 
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22.4 实验 细节 和 结果 

















在 本 节 中 ， 我 们 通过 提供 不 同 大 小 表 的 插入 和 查询 过 程 的 性 能 岁 ， 来 介绍 我 们 系统 
的 实现 。 我 们 的 实验 和 性 能 图 的 细节 在 本 章 参 考 文献 [THUR10] 中 给 出 。 下 面 先 简要 
介绍 一 下 我 们 的 实验 配置 ， 然 后 是 实现 细节 。 


22.4.1 实验 配置 


我 们 的 实验 是 在 一 个 19 节点 集群 上 进行 的 ， 并 且 具 有 两 种 不 同 配置 的 节点 混合 。 
此 外 ， 所 有 节点 都 在 同一 个 机 架 中 。 在 19 个 节点 中 ，11 个 节点 在 具有 4 GB SDRAM 400 
MHz 内 存 的 Intel Pentium 4, 3.2GHz 中 央 处 理 器 (CPU) 和 作为 主 驱动 器 的 40GB West- 
em Digital WDC WD400BB -75FJ SATA 硬盘 驱动 器 以 及 作为 辅助 驱动 器 的 250GB West- 
em Digital WD2500AAJB -0 SATA 硬盘 上 运行 Ubuntu v10. 04 Lucid Lynx， 另 外 8 个 节点 
在 具有 4 GB SDRAM 333 MHz 内 存 的 Intel Pentium 4 2. 8 GHz CPU 和 两 个 40 GB Western 
Digital WDC WD400BB -75FJ SATA 硬盘 驱动 器 上 运行 Ubuntu v9. 04 Jaunty Jackalope, FÈ 
们 使 用 Java 版 本 JRE v1.6.0 \ _ 18 来 实现 。 对 于 云 基础 架构 ， 我 们 使 用 Hadoop 
v0. 19. 1 版 本 (其 具有 1000MB 堆 空 间 ) 以 及 Hive 版 本 v0.5 (其 还 具有 默认 堆 空 间 ) 。 
我 们 还 使 用 Apache Tomcatv7. 0. 0 作为 应 用 程序 的 Web 服务 器 ， 具 有 2 GB 的 堆 空 间 。 我 
还 为 Hadoop 和 Hive 提供 的 所 有 参数 使 用 了 默认 值 。 我 们 了 解 到 5 当 设 置 这 些 参数 为 最 
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佳 值 时 ， 将 获得 性 能 的 提升 。 但 由 于 这 是 一 项 初步 工作 ， 我 们 现在 不 用 重点 关注 这 些 参 
数 ， 未 来 将 要 进一步 完善 。 


22.4.2 实验 数据 集 


我 们 使 用 两 个 不 同 的 数据 集 来 测试 我 们 的 系统 与 Hive 的 性 能 。 第 一 个 数据 集 是 
Freebase ( 见 本 章 参 考 文献 [FREE ]) 系统 ， 它 是 一 个 开放 的 结构 化 数据 库 ， 拥 有 约 
1200 万 个 主题 或 实体 。 实 体 是 具有 唯一 标识 符 的 人 、 地 点 或 事物 。 我 们 想 通过 使 用 
Freebase 系统 中 的 人 人员、 业务、 电影、 体育、 组 织 和 奖励 数据 集 来 模拟 合作 组 织 的 环 
境 。 我 们 假设 每 个 数据 集 由 不 同 的 组 织 加 载 到 系统 中 ， 而 且 还 可 以 基于 用 户 的 权限 在 这 
些 数据 集 之 间 执 行 各 种 查询 。 用 于 测试 实验 的 查询 是 由 基于 Freebase 系统 的 数据 集 创 
建 的 。 
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日 来 测试 系统 的 第 二 个 数据 集 是 著名 的 TPC - H 基准 测试 ( 见 本 章 参考 文献 
[TPC]), TPC - H 基准 是 一 个 决策 支持 的 基准 ， 由 一 个 对 任何 商业 组 织 来 说 都 比较 典 
型 的 模式 组 成 。 该 基准 测试 包含 8 个 表 ， 并 提供 22 个 具有 高 度 复杂 的 查询 。 我 们 使 用 
这 个 基准 ， 测 试 我 们 的 系统 与 Hive 在 执行 复杂 查询 时 的 性 能 。TPC -H 基准 测试 提供 了 
数据 生成 工具 (DBGEN) 和 查询 生成 工具 (QCGEN)。 我 们 已 经 使 用 DBGEN 生成 基准 
文件 中 规定 的 具有 1 ~ 1000 的 不 同比 例 因子 (SE) 的 数据 集 。 读 者 应 注意 ， 比 例 因子 
为 1 是 大 约 1GB 的 数据 。 因 此 ， 我 们 对 系统 的 测试 ， 数 据 大 小 从 1 -1000GB 不 等 。 较 小 的 
数据 集 (SF = 1, SF = 10 和 SF = 30) 用 于 测试 我 们 的 系统 与 Hive 的 加 载 性 能 。 另 外 ， 
较 大 的 数据 集 (SF = 100, SF = 300 和 SF = 1000) 用 于 运行 几 个 基准 查询 。 使 用 TPC - 
H 基准 测试 的 QI. Q3, Q6 和 QI3 来 测试 我 们 的 系统 。 原 始 查 询 不 需要 手动 分 为 子 查询 ， 
因为 我 们 的 Web 应 用 程序 不 支持 此 功能 。 我 们 还 认为 ， 通 过 运行 上 述 查 询 获 得 的 结果 ， 
可 以 展示 出 在 我 们 的 系统 上 运行 所 有 其 他 TPC -H 基准 查询 的 性 能 。 


22.4.3 实验 结果 


我 们 已 经 对 基于 Web 的 系统 进行 了 测试 ， 例 如 数据 加 载 和 查询 时 间 等 性 能 指标 。 
此 外 ， 我 们 已 经 将 这 些 指标 与 Hive CLI 进行 了 比较 。 在 本 小 节 的 性 能 图 表 和 结果 表 中 使 
用 的 所 有 查询 时 间 均 通过 三 次 单独 运行 后 取 平 均 。 我 们 运行 了 两 组 实验 ， 一 组 使 用 
Freebase 系统 ， 男 一 组 使 用 TPC - H 基准 测试 。 

我 们 已 经 比较 了 为 Freebase 数据 集 加 载 和 查询 应 用 程序 数据 所 需 的 时 间 与 Hive 的 
时 间 。 应 用 程序 的 数据 加 载 时 间 几 乎 与 Hive 的 小 型 表 (0.1 万 和 0.3 万 元 组 ) 的 时 间 
相同 。 随 着 元 组 的 数量 增加 到 50 万 ， 然 后 增加 到 167 万 ， 我 们 的 系统 加 载 元 组 比 Hive 
慢 。 这 主要 是 因为 建立 与 Hive 数据 库 连 接 相 关联 的 开销 ， 以 及 与 正在 加 载 的 表 构 建 
XACML 策略 需要 相应 的 时 间 。 

此 外 ， 我 们 比较 了 应 用 程序 和 Hive 之 间 的 简单 “SELECT + FROM” 查 询 的 运行 时 
间 。 已 经 在 用 于 数据 加 载 的 相同 表 上 执行 查询 ， 但 是 通过 仅 使 用 前 100 个 元 组 的 LIMIT 
子 句 来 限制 我 们 的 结果 。 这 样 做 是 为 了 避免 在 我 们 的 应 用 程序 和 Hives CLE 之 间 出 现 较 
大 的 时 间 差 异 ， 因 为 我 们 已 经 在 结果 上 实现 了 分 页 机 制 ， 而 Hive 的 CLI 将 在 屏幕 上 显 
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示 所 有 结果 。 我 们 的 应 用 程序 运行 时 间 比 Hive CLI 上 查询 的 运行 时 间 稍 短 。 这 个 差异 是 
由 于 Hive CLI 在 屏幕 上 显示 查询 结果 所 花费 的 时 间 。 两 个 运行 都 很 快 ， 因 为 Hive 不 需 
要 为 此 查询 运行 Map/Reduce ( 见 本 章 参考 文献 [APACc]) 作业 ， 而 只 需要 从 HDFS 返 
回 相应 表 的 整个 文件 。 

我 们 还 运行 了 许多 其 他 查询 ， 并 将 我 们 系统 上 的 这 些 查 询 的 运行 时 间 与 Freebase 系 
统 的 Hive 进行 了 比较 。 这 些 查询 能 测试 我 们 的 系统 在 创建 和 查询 视图 / 表 时 与 Hive 的 
性 能 。 我 们 测试 了 各 种 查询 ， 包 括 插 人 和 人、 创建 、 选 择 、 聚 合 和 连接 查询 。 

我 们 还 比较 了 TPC -H 基准 中 SF = 1, 10 和 30 的 “客户 ”和 “提供 商 ” 表 的 应 
用 与 Hive 的 数据 加 载 时 间 。 目 前 ， 我 们 的 系统 允许 用 户 上 传 最 多 1 GB 的 数据 文件 。 
TPC - H 基准 测试 的 DBGEN 工具 为 SF = 1, 10 和 30 的 “客户 ”和 “提供 商 ” 表 生成 
小 于 1 GB 的 文件 。 这 也 是 为 什么 选择 SF = 1、10 和 30 的 “客户 ”和 “提供 商 ” 表 ， 
来 比较 我 们 系统 与 Hive 的 数据 加 载 性 能 的 原因 。 在 数据 加 载 方面 ， 我 们 的 系统 在 最 小 
SF 为 1 时 执行 与 Hive 相似 ， 随 着 SF 的 增加 ， 我 们 的 系统 比 Hive 慢 。 再 次 声明 ， 执 行 
性 能 的 差异 是 由 于 与 Hive 数据 库 连接 和 XACML 策略 生成 需要 相应 的 开销 。 我 们 的 系统 
和 Hive 共同 的 趋势 是 预期 的 线性 关系 ， 因 为 这 些 表 的 大 小 随 着 SF 线性 增加 。 

最 后 ， 比 较 了 我 们 系统 上 的 4 个 TPC - H 基准 查询 与 Hive 的 性 能 。 我 们 的 系统 和 所 
选 查询 的 Hive CLI 一 样 。 在 两 者 的 查询 性 能 时 间 的 基础 上 ， 随 着 表格 大 小 的 增加 ， 基 准 
查询 执行 的 时 间 也 如 预期 的 那样 增加 。 在 生产 环境 中 ， 这 些 查 询 将 不 会 在 运行 时 针对 大 
型 数据 集 执行 。 我 们 宁愿 离线 运行 这 些 查 询 ， 并 可 以 将 结果 作为 视图 存储 在 Hive Po 
然后 ,我们 也 可 以 使 用 查询 重 写 机制 ， 来 有 效 地 返回 这 些 结果 。 














































































































22.5 ”总结 和 展望 


在 本 章 中 ， 我 们 提出 了 一 个 允许 各 合作 组 织 安全 地 共享 大 量 数据 的 系统 。 我 们 通过 
使 用 Hadoop 来 确保 各 个 组 织 有 一 个 很 大 的 共同 存储 区 域 。 此 外 ， 我 们 已 经 使 用 Hive n] 
以 向 系统 的 用 户 展示 数据 的 结构 化 视图 ， 并 且 还 可 以 使 用 类 似 SQL 的 语言 来 查询 数据 。 
我 们 使 用 一 个 简单 的 加 盐 哈 希 机 制 ， 来 验证 当前 版 本 系统 中 的 用 户 。 我 们 计划 在 未 来 版 
本 的 系统 中 实施 更 复杂 的 身份 验证 技术 。 在 本 章 中 ， 我 们 使 用 ZOL 解析 器 ， 来 解析 用 
户 输入 的 任何 SQL 查询 。 我 们 还 计划 扩展 此 解析 器 ， 并 支持 目前 在 ZOL 中 不 支持 的 如 
DESCRIBE, JOIN 等 关键 字 。 我 们 通过 实现 一 些 基本 的 查询 重 写 规则 ,将 用 户 从 使 用 
Hive 中 抽象 出 来 。 我 们 未 来 工作 的 一 部 分 是 在 Hive 中 实现 物化 视图 ， 并 将 基本 的 查询 
重 写 规则 扩展 到 一 个 完整 的 Hive 引擎 ， 该 引擎 考虑 到 所 有 的 表 / 物 化 视图 和 它们 定义 的 
XACML 策略 。 我 们 使 用 XACML 策略 为 共享 数据 提供 了 细 粒 度 的 访问 控制 ， 还 根据 用 
户 提交 给 我 们 系统 的 查询 种 类 ， 在 我 们 的 框架 中 引入 基于 角色 的 访问 控制 。 在 我 们 系统 
的 当前 版 本 中 ， 我 们 只 提供 两 种 类 型 的 关键 字 ，INSERT 和 SELECT 作为 XACML 策略 组 
的 文 持 。 

在 将 来 ,我们 计划 将 系统 扩展 到 其 他 基于 关键 字 的 组 ， 如 DELETE, UPDATE 等 。 
我 们 还 计划 使 用 Hadoop 和 Hive 提供 的 参数 ， 来 测试 对 查询 执行 性 能 的 不 同 值 的 影响 。 
最 后 ， 目 前 的 系统 只 在 私有 云 中 实现 ， 将 在 未 来 的 版 本 中 ， 要 扩展 到 包括 公有 云 在 内 的 
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1 和 云 计 算 开 发 与 安全 








ZA, Wl AWS 和 Amazon 简单 存储 服务 。 
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23.1 概述 








语义 Web 变 得 越 来 越 普遍 。 大 多 数 小 型 和 大 型 企业 (如 Oracle, IBM, Adobe, 
Software AG 等 ) 正在 积极 使 用 语义 Web 技术 ( 见 本 章 参 考 文献 [ W3C09] ) ， 而 且 在 更 
广泛 的 应 用 领域 如 医疗 保健 和 生命 科学 领域 正在 考虑 将 其 应 用 于 数据 集成 的 可 能 性 
( 见 本 章 参 考 文献 [ W3C09]), Tim Berners - Lee Eb -H-g MAE T i X. Web 作为 可 被 机 
器 理解 的 网 络 〈 见 本 章 参考 文献 [LEF98] ) 。 语 义 Web 的 力量 在 于 其 对 网 络 资源 之 间 
关系 的 整合 ( 见 本 章 参考 文献 [W3C09] ) 。 

语义 Web 连同 本 体 一 起 ， 是 表示 知识 的 最 强大 的 方法 之 一 。 本 体 正式 地 描述 域 中 
的 概念 或 类 、 类 的 各 种 属性 、 类 之 间 的 关系 和 限制 。 知 识 库 可 以 由 本 体 及 其 各 种 类 实例 
构建 。 知 识 库 (本 体 及 其 实例 ) 的 一 个 例子 如 图 23. 1 所 示 。 































































访问 控制 策略 实施 





图 23.1 云 查询 处 理 安全 

RDF 由 于 其 表现 力 、 语 义 互 操作 性 和 可 重用 性 而 被 广泛 用 于 语义 Web。 目 前 使 用 
的 大 多 是 RDF 存储 ， 其 中 包括 Apache Jena Fuseki ( 见 本 章 参 考 文 献 [ APAC])、Kowari 
( 见 本 章 参 考 文献 [KOWA ] ) 3store ( 见 本 章 参考 文献 [ HARROS ] ) 和 Sesame ( 见 本 章 
参考 文献 [BROEO2]), ， 但 是 它们 并 不 在 意 其 安全 性 。 我 们 已 经 努力 去 考虑 安全 性 ， 特 
别 是 在 Jena 中 ( 见 本 章 参考 文献 [ JAINOG ] , [ REDD05 ] ) 。 然 而 ，Jena 的 一 个 缺点 是 缺 
乏 可 扩展 性 。 因 此 ， 较 大 数据 集 的 执行 时 间 可 能 变 得 相当 缓慢 ， 使 得 大 型 存储 的 某 些 查 
询 难以 处 理 〈 例 如 ， 有 具有 1000 万 次 或 更 多 次 的 数据 ) 〈( 见 本 章 参考 文献 [ HUSA09] 、 
[HUSA10]) 。 

男 一 方面 ， 由 于 可 扩展 性 、 并 行 处 理 能 力 、 成 本 效益 和 可 用 性 ， 大 型 RDF 可 以 在 
云 计算 机 中 存储 和 检索 。 最 广泛 使 用 的 云 计算 环境 Hadoop (Apache) ( 见 本 章 参 考 文献 
[APAC]) 使 用 了 Google 的 Map/Reduce 框架 。Map/Reduce 将 大 型 作业 分 解 为 较 小 的 作 
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业 ， 
明 ， 
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并 将 这 些 作 业 的 结果 合并 ， 以 便 在 完成 子 任务 后 ， 生 成 最 终 的 输出 。 先 前 的 工作 表 
可 以 在 这 些 云 中 高 效 地 存储 和 查询 大 型 RDF 图 ( 见 本 章 参 考 文献 [ CHOIO9 ] 、 











[HUSA09] 、[HUSA10] 和 [MIKA08] ) 。 在 存储 和 管理 的 同时 ， 大 型 RDF 图 已 经 受到 
关注 ， 而 Hadoop 中 RDF 存储 的 访问 控制 很 少 受到 关注 。 在 本 章 中 ， 我 们 将 描述 一 种 在 
Hadoop 上 实现 RDF 数据 访问 控制 的 系统 。 


别 ， 





我 们 的 系统 实现 了 基于 令 牌 的 访问 控制 系统 。 系 统管 理 员 根 据 代 理 的 需求 和 安全 级 
为 安全 性 相关 数据 授予 访问 令 牧 ( Access Token，AT)。 由 于 将 相互 冲突 的 访问 令 








牌 分 配给 同一 代理 机 构 可 能 会 产生 冲突 ， 这 可 以 通过 使 用 访问 令 牌 的 时 间 蕉 来 解决 。 对 


此 ， 








我 们 使 用 LUBM ( 见 本 章 参 考 文献 [GUO05]) 测试 实例 进行 实验 。 另 外 ，Hadoop 


中 已 经 生成 和 实现 了 一 些 示 例 的 场景 。 





我 们 已 经 做 出 了 一 些 贡 献 。 首 移 ， 我 们 设计 了 一 个 扩展 到 极 大 数据 集 的 架构 ; 第 

















二 ， 我 们 不 仅 在 用 户 层面 ， 还 在 主体 、 客 体 和 谓词 的 层次 上 处 理 访 问 控制 ， 使 策略 具有 
细 粒 度 ， 比 以 前 的 产品 更 具 表 现 力 ; 第 三 ， 我 们 设计 了 基于 时 间 戳 的 冲突 检测 和 解决 算 





法 ; 


























第 四 ， 对 架构 进行 了 实验 ， RART DELIA TERNE: 查询 重 写 











( 预 处 理 阶 段 ) BUNT (Map/Reduce 执行 阶段 }) 和 后 处 理 执行 (数据 显示 阶段 ) 。 


最 后 ， 整 个 系统 在 Hadoop 











一 个 开源 云 计 算 环 境 中 实现 。 本 章 对 于 Hadoop 中 的 RDF 


数据 所 考虑 的 其 他 访问 控制 是 有 好 处 的 。 


本 章 的 结构 如 下 。 在 23.2 节 中 ， 我 们 将 介绍 Hadoop 和 Map/Reduce 的 相关 工作 和 简要 


概述 。23.3 节 介 绍 访问 令 牌 、AT 元 组 、 冲 突 和 我 们 对 冲突 的 解决 算法 。 在 23.4 节 中 描述 我 
们 系统 的 架构 。 在 23.5 节 中 ， 描 述 将 AT 分 配给 代理 的 影响 ， 包 括 实验 及 其 运行 时 间 。 最 后 ， 
23. 6 “TRE PARA ACHR FRED, B 23. 2 说 明了 本 章 包 含 的 内 容 。 
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图 23.2 对 语义 Web 数据 进行 云 查询 安全 处 理 [ Khaled, A. , Husain, M.F. , Khan, L., 
Hamlen, K. W. A Token - Based Access Control nes for RDF Data in the Clouds, Proceedings of the 


23.2 背景 


2010 IEEE Second International Conference on Cloud Computing Technology and Science 
(CloudCom) , p. 104 - 111, 2010. O (2010) IEEE. ] 


3m 


23.2.1 相关 工作 





我 们 首先 描述 以 前 关于 单机 RDF 安全 性 的 工作 。 然 后 ,总结 存储 RDF 数据 的 一 些 
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(^ 云 计算 开发 与 安全 
云 计算 架构 。 最 后 ， 介 绍 我 们 自己 以 前 的 工作 总 结 。 
虽然 人 们 对 RDF 知识 的 存储 、 表 示 和 推理 进行 了 广泛 的 研究 ， 但 对 于 RDF 存储 的 
安全 性 和 访问 控制 问题 的 研究 相对 较 少 〈 见 本 章 参考 文献 [REDD05 ] ) Reddivari 等 人 
( 见 本 章 参 考 文献 [REDD05]) 已 经 实施 了 基于 一 组 规则 策略 的 访问 控制 。 它 们 处 理 
RDF 存储 中 的 三 元 组 、 模 型 和 集合 的 插入 /删除 操作 ， 以 及 查看 和 使 用 操作 。Jain 和 
Farkas ( 见 本 章 参考 文献 [JAIN06]) 将 RDF 保护 对 象 描 述 为 RDF 模式 ， 并 为 其 设计 了 
符合 安全 性 的 要 求 。 他 们 表明 了 子 类 或 子 属 性 的 安全 级 别 ， 应 该 至 少 与 超 类 型 一 样 受 限 
制 。 本 章 参 考 文献 [KIMOS] 中 讨论 的 基于 RDF 三 重 访问 控制 模型 ， 考 虑 了 显 式 和 隐 
式 的 授权 传播 。 

以 上 这 些 工作 大 部 分 都 是 在 Jena 中 实现 的 。 然 而 ，Jena 的 扩展 性 差 ， 因 为 它 运行 
在 单 台 机 右上 ， 无 法 处 理 大量 的 数据 ( 见 本 章 参 考 文献 [HUSA09] , [HUSA10] ) 。 
Husain 等 人 ( 见 本 章 参 考 文献 [ HUSA09 ], [HUSA10]) 设计 和 实现 一 个 架构 来 存储 和 
查询 大 型 RDF 图 。Mika 和 Tummarello ( 见 本 章 参考 文献 [ MIKA08]) 将 RDF 数据 存储 
在 Hadoop 中 。SPIDER 系统 ( 见 本 章 参 考 文献 [ CHOI09]) 存储 和 处 理 大 型 RDF 数据 
集 ， 但 缺少 访问 控制 机 制 。 

我 们 的 架构 包含 一 个 访问 控制 层 来 支持 大 型 数据 集 的 访问 控制 ， 这 个 架构 在 本 章 参 
考 文献 [HUSA10] 中 讨论 。 我 们 的 方法 不 是 将 访问 控制 直接 分 配给 用 户 或 代理 ， 而 
为 特定 访问 级 别 生 成 令 牌 ， 并 根据 业务 需求 和 代理 的 安全 级 别 ， 将 令 牌 分 配给 代理 。 虽 
然 其 他 人 使 用 令 牌 进行 访问 控制 来 管理 XML 文档 ( 见 本 章 参 考 文献 [BOUG04] ) 和 数 
FAE ( 见 本 章 参考 文献 [【HOLM9%9]) ， 但 这 些 标记 尚未 用 于 RDF 存储 。 使 用 令 牌 的 
个 优点 是 ， 如 果 多 个 代理 的 需求 和 安全 要 求 相 同 ， 它 们 就 可 以 重复 使 用 。 
23.2.1.1 Hadoop 和 Map /Reduce 

接 下 来 ， 我 们 简要 介绍 Hadoop ( 见 本 章 参 考 文献 [APAC]) 和 Map/Reduce。 在 
Hadoop 中 ， 计 算 单 位 称 为 作业 。 用 户 向 Hadoop 的 JobTracker 组 件 提交 作业 。 每 个 工作 
有 两 个 阶段 : 映射 (Map) 和 规约 (Reduce) 。 映 射 阶段 将 键 值 对 作为 输入 ， 并 可 输出 
零 个 或 多 个 键 值 对 。 在 Reduce 阶段 ， 每 个 键 的 值 都 被 分 组 到 一 起 构成 集合 ， 由 迭代 器 
遍历 。 然 后 将 这 些 迭 代 键 值 对 器 传递 给 Reduce 方法 ，Reduce 方法 再 输出 零 个 或 多 个 键 
值 对 。 当 作业 提交 给 JobTracker 时 ， Hadoop 会 尝试 将 Map ( 映射 ) 进程 靠近 集群 中 的 输 
和 人 数据 。 每 个 Map 过 程 和 Reduce 过 程 都 可 以 独立 运行 而 无 需 通信 。 这 种 无 通信 方式 ， 
有 利于 速度 的 提升 和 实现 的 简单 性 。 
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23.3 访问 控制 


23.3.1 模型 

定义 23.1 

AT (访问 令 牌 ) 允许 访问 与 安全 相关 的 数据 。 持 有 AT 的 代理 可 以 查看 该 AT 所 允 
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许 的 数据 。 我 们 用 正 整数 表示 AT, 
定义 23.2 
访问 令 牌 元 组 (ATT) 具有 < 访问 令 牌 、 元 素 、 元 素 类 型 和 元 素 名 称 > 的 形式 ， 其 

中 元 素 可 以 是 主体 、 客体 或 谓词 ， 元 素 类 型 可 以 被 描述 为 URI、 DataType, 、Literal 、 
Model 或 BlankNode。 模 型 用 于 访问 主体 模型 ， 稍 后 将 在 本 节 中 进行 说 明 。 

例如 ，David 是 一 个 主体 ，<1，Subject，URI，David > 是 一 个 ATT。 具 有 ATI 的 任 
何 代理 可 以 检索 所 有 文件 上 的 David 的 信息 (遵守 与 David 对 象 相 关联 的 URI、 文 字 等 
访问 的 任何 其 他 安全 限制 ) 。 在 描述 icates 的 ATT 时 ， 我 们 将 元 素 名 称 留 空 ( )。 

在 记录 组 织 的 基础 上 ， 我 们 支持 6 个 访问 级 别 ， 以 及 下 面 描述 的 几 个 对 应 的 子 类 
型 。 可 以 为 代理 分 配 一 个 或 多 个 以 下 访问 级 别 。 这 里 ， 把 具有 共同 AT 的 访问 级 别 结合 
在 一 起 ， 而 具有 不 同 AT 的 访问 级 别 分 开 组 合 。 

1) 谓词 数据 访问 : 如 果 对 访问 级 别 中 的 一 个 特定 谓词 定义 了 对 象 类 型 ， 则 具有 该 
访问 级 别 的 代理 可 能 会 读 取 整 个 谓词 文件 ( 受 任何 其 他 策略 限制 )。 例 如 ，<1， 谓词 ， 
isPad, ”> 是 一 个 ATT， 它 允许 其 拥有 者 读 取 整个 谓词 文件 isPaid。 

2) 谓词 和 主体 数据 访问 : 拥有 主体 ATT 的 代理 ， 可 以 访问 与 特定 主体 相关 联 的 数 
据 ， 其 中 主体 可 以 是 URI 或 DataType。 将 这 些 主体 ATT 中 的 一 个 与 谓词 数据 访问 相 结 
合 ， 具 有 相同 AT 的 ATT 授权 代理 ， 可 以 访问 特定 谓词 的 特定 主体 。 例 如 : 

CD 谓词 和 主体 作为 URI: 组 合 ATT 的 «1, 谓词 ，isPaid > 和 <1， 主体 ，URI， 
MichaelScott > 允许 具有 ATI 的 代理 ,访问 具有 URI 的 主体 MichaelScott 的 谓词 isPaid。 

@ 谓词 和 主体 作为 数据 类 型 类似 地 ， 谓 词 和 数据 类 型 的 ATT 可 以 组 合成 主体 ， 
以 允许 通过 特定 谓词 文件 访问 特定 数据 类 型 。 

为 了 简洁 起 见 ， 我 们 省 略 了 对 每 个 以 下 访问 级 别 的 不 同 主体 和 客体 变 体 的 描述 。 

3) 谓词 和 客体 : 此 访问 级 别 允 许 主体 提取 满足 特定 谓词 和 客体 的 名 称 。 例 如 ， 
AIT AN <1, 谓词 ， 有 维生素 ，。 > 和 <1， 客 体 ，URI, E>, BA ATI 的 代理 可 以 查 
看 具有 维生素 的 受 试 者 (例如 食物 ) 的 名 称 。 更 一 般 地 ， 如 果 X1 和 X2 是 描述 AT 的 
谓词 和 客体 三 元 组 (分 别 ) 生成 的 三 元 组 ， 则 拥有 AT 的 代理 可 以 查看 三 元 组 的 集合 
X 1NX2。 此 示例 如 图 23. 3 所 示 。ATT 的 联合 需要 与 通用 的 AT 一 起 组 合 。 

4) 主体 访问 权限 : 使 用 此 访问 级 别 ， 代 理 可 以 读 取 所 有 文件 上 的 主体 信息 。 这 是 

市 较 少 的 访问 级 别 之 一 。 主 体 可 以 是 DataType 或 BlankNode。 

5) 客体 访问 : 使 用 此 访问 级 别 ， 代 理 可 以 通过 所 有 文件 读 取 客体 的 主体 。 像 上 一 
级 一 样 ， 这 是 限制 较 少 的 访问 级 别 之 一 。 该 客体 可 以 是 URI、 DataType 、Literal 或 Blan- 
kNode。 

6) 主体 模型 级 访问 : 模型 级 访问 允许 代理 读 取 所 有 必需 的 谓词 文件 ， 以 获取 给 定 
主体 的 所 有 客体 。 在 这 些 客体 中 ， 作 为 URI 的 那些 客户 接 下 来 被 视 为 主体 ， KERE 
们 各 自 的 谓词 和 客体 。 该 过 程 继 续 迭 代 ， 直 到 所 有 客体 最 终 都 成 为 文字 或 空白 节点 。 以 
这 种 方式 ， 具 有 模型 级 访问 的 代理 可 以 在 给 定 主体 上 生成 模型 。 
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图 23.3 ATT 和 通用 AT 的 结合 [ 源 自 Khaled, A., Husain, M.F. , Khan, L., 
Hamlen, K. W. A Token - Based Access Control System for RDF Data in the Clouds, 
Proceedings of the 2010 IEEE Second International Conference on Cloud Computing 
Technology and Science (CloudCom) , p. 104 - 111, 2010. € (2010) IEEE. | 


























23.3.2 AT 任务 

定义 23.3 

访问 令 牌 列表 (AT -list) 是 授予 给 定 代理 的 一 个 或 多 个 AT 的 阵列 ， 以 及 标识 每 
个 AT 被 授予 的 时 间 戳 。 要 为 每 个 代理 维护 单独 的 AT 列表 。 

当 系 统管 理 员 决定 将 AT 添加 到 代理 的 AT 列表 时 ，AT 和 时 间 戳 首先 被 存储 在 临时 
变量 AT 中 。 在 进行 更 改 之 前 ， 系 统 必 须 首先 检测 新 AT 列表 中 是 否 存 在 潜在 冲突 。 
23.3.2.1 代理 AT 的 最 终 输 出 

每 个 AT 允许 访问 一 个 三 元 组 集合 ， 我 们 将 此 集合 称 为 AT 的 结果 集 。 由 代理 人 访 
问 的 三 元 组 集合 是 代理 人 AT 列表 中 AT 的 结果 集合 。 也 就 是 说 ， 如 果 Y,, Y,, e Y, 
是 AT 的 结果 集 ，AT,，AT, ，…，AT,， (分别 ) 在 代理 的 AT 列表 中 ， 则 代理 可 以 访问 
集合 Y ,UY ,U…UY 中 的 三 元 组 。 
23.3.2.2 安全 级 别 默认 值 

通过 保守 地 选择 系统 中 数据 的 默认 安全 级 别 ， 可 以 大 大 简化 管理 员 的 AT 分 配 负 
担 。 在 我 们 的 实验 中 ， 数 据 存储 中 的 所 有 项 都 具有 默认 的 安全 级 别 。 默 认 情 况 下 ， 拒 绝 
访问 数据 类 型 为 Person 的 任何 URI 的 个 人 信息 都 被 保密 。 这 可 以 防止 代理 对 任何 未 被 
授予 明确 许可 的 个 人 做 出 推论 。 但 是 ， 如 果 授 予 代理 对 特定 类 型 或 属性 的 显 式 访问 权 
限 ， 就 还 应 授予 该 代理 对 该 类 型 或 属性 的 子 类 型 或 子 属性 的 默认 访问 权限 。 

例如 ， 考 虑 一 个 谓词 文件 Likes 列 出 个 人 喜欢 的 元 素 。 假 设 Jim 是 一 个 人 ， 他 喜欢 
Flying, SemanticWeb 和 Jenny， 这 几 项 分 别 是 Hobby, ResearchInterest 和 Person 类 型 的 
URI 的 个 人 信息 ,那么 1 是 ATT <1, Subject, URI, Jim» 和 <1，likes，Predicate，_> 
的 AT。 默 认 情 况 下 ， 只 有 ATI 的 代理 商 Ben 不 能 从 中 得 知 Jenny 在 Jim 的 Likes — list 
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中 ， 因 为 Jenny 的 数据 类 型 为 Person 。 但 是 ， 如 果 Ben 还 有 ATT «2, Object, URI, Jen- 
ny > 描述 的 AT2, IBA Ben 将 能 够 在 Jim 的 “喜欢 ”列表 中 看 到 Jenny, 


23.3.3 冲突 


当 发 生 以 下 3 种 情况 时 ,我 们 认为 将 出 现 冲突 : O 代理 人 拥有 两 个 AT，AT1 和 
AT2; © AT2 的 结果 集 是 ATI 的 适当 子 集 ; © ATI 的 时 间 蕉 早 于 AT2 HUTT AK, EX 
种 情况 下 ， 后 者 因 更 具体 的 AT 取代 了 前 者 。 所 以 ATI 从 AT 列表 中 被 丢弃 以 解决 冲突 。 
这 种 冲突 出 现在 两 个 类 型 中 ,我 们 称 之 为 子 集 冲 突 和 子 类 型 冲突 。 

当 AT2 是 精简 ATI 的 ATT 的 连接 时 ， 发 生子 集 冲 突 。 例 如 ,假设 ATI 由 ATT <1, 
Subject, URI, Sam > 定义 ，AT2 由 ATT «2, Subject, URI, Sam > 和 <2, Predicate, 
HasAccounts, | > EM, 在 这 种 情况 下 ， AT2 的 结果 集 是 ATI 的 结果 集 的 子 集 。 因此 ， 
如 果 具 有 ATI 的 代理 后 来 被 分 配 到 AT2 ， 则 会 发 生 冲 突 。 当 发 生 这 种 情况 时 ，AT1 从 代 
理 的 AT 列表 中 被 丢弃 ， 来 解决 冲突 。 

当 AT2 中 的 ATT 涉及 数据 类 型 是 ATI 中 ATT 的 子 类 型 时 ， 发 生子 类 型 冲突 。 这 是 
的 数据 类 型 ， 可 以 是 主体 、 客 体 或 两 者 结合 的 数据 类 型 。 

冲突 解决 可 以 总 结 成 算法 1。 这 里 ，subset (AT1，AT2) 是 一 个 函数 ， 如 果 AT 的 
结果 集合 返回 true, IA ATI 的 结果 集 是 AT2 的 结果 集 的 真子 集 。 如 果 ATI 的 主体 是 
AT2 的 主体 的 子 类 型 ， 则 SubjectSubType (AT1，AT2) 返回 tue。 类 似 地 ，ObjectSub- 
Type (ATI, AT2) 决定 客体 而 不 是 主体 的 子 类 型 关系 。 

算法 1: 冲突 检测 与 解决 

输入 : ATnewAT 与 时 间 截 TS. 

结果 : 检测 冲突 ， 如 果 不 存 在 ,将 (newAT, TS...) 添加 到 代理 的 AT 列表 中 

1. eurrentAT]] < the AT's and their timestamps; 
2. if (Subset(newAT, tempATTS) AND 
ISubset(tempATTS, newAT) AND 
ISubjectSubIype(newAT, tempATTS)) AND 
ISubjectSublype(tempAT TS, newAT) AND 
!ObjectSubType(newAT, tempATTS)) AND 
!ObjectSublype (tempATTS, newAT)) then 
currentAT length, ay AT «— newAT ; 
currentAT [length umemat TS < TS newAT ; 


else 

count — 0; 

while count < length, 7 do 

AT tempAT TS «— currentAT [count].AT ; 

tempTS «— currentAT |count].15 ; 

[* the timestamp during the AT assignment */ 

if (Subset(newAT ,tempATTS) AND (TS, 7. 2 tempTS)) then 


[* a conflict occurs */ 
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13. currentAT [count |. AT € newAT ; 
14. currentAT | count |.TS < TSnewAT ; 
15. else if ((Subset(tempATTS,newAT))AND(tempTS < TS, ..47)) then 
16. currentAT |count|.AT €— newAT ; 
17. currentAT | count |.TS € TSnewAT ; 
18. else if ((SubjectSubType(newAT, tempATTS) OR 
ObjectSubType (newAT, tempATTS)) AND TS,,,,,472tempTS) then 
19. [* a conflict occurs *l 
20. currentAT [count |.AT € newAT ; 
21. currentAT |count |.TS < TSnewAT ; 


22. else if ((SubjectSubLype(tempATTS, newAT) OR ObjectSubType (tempATTS, 
newAT)) AND (tempAT TS < TS pewar) then 


23. currentAT [count |.AT < newAT ; 
24. currentAT |count|.TS € TSnewAT ; 
25. end 

26. count «— count + 1; 

27. end 

28. end 


23.4 系统 架构 


23.4.1 系统 架构 概述 


我 们 提出 的 架构 由 两 部 分 组 成 。 图 23. 4 的 上 半 部 分 描述 数据 预 处 理 组 件 ， 下 半 部 
分 是 负责 回答 查询 的 组 件 。 

三 个 子 组 件 将 执行 数据 生成 和 预 处 理 。 我 们 使 用 IN - Triples 转换 器 组 件 将 RDF/ 
XML ( 见 本 章 参 考 文献 [ BECKO4]) 转换 为 N - Triples 序列 化 格式 〈 见 本 章 参考 文献 
[ GRAN04] ) PS 组 件 获取 N - Triples 数据 并 将 它们 分 解 成 谓词 文件 。 本 节 介 绍 将 这 些 
步骤 。 最 后 一 个 组 件 输出 后 ， 用 于 收集 汇总 统计 信息 ， 这 些 统计 信息 被 传递 给 HDFS。 

架构 的 底部 显示 了 访问 控制 单元 和 Map/Reduce 框架 。 访问 控 制 单元 参与 查询 执行 
的 不 同 阶 段 。 当 用 户 提 交 查 询 时 ， 重 写 该 查询 (如果 可 能 的 话 ) 来 强制 执行 一 个 或 多 
个 访问 控制 策略 。Map/Reduce 框架 有 三 个 子 组 件 。 它 需要 从 查询 接口 引擎 获取 重 写 的 
SPARQL 查询 ， 并 将 其 传递 给 输入 选择 器 和 计划 生成 器 。 该 组 件 选择 输入 文件 ， 决 定 需 
要 多 少 作 业 ， 并 将 信息 传递 给 作业 执行 器 组 件 ， 该 组 件 将 相应 的 作业 提交 给 Hadoop。 
作业 执行 器 组 件 与 访问 控制 单元 通信 以 获得 相关 策略 来 执行 ， 并 相应 地 运行 作业 。 然 后 
它 将 查询 答案 从 Hadoop 中 调 出 ， 送 给 用 户 。 要 回答 需要 推理 的 查询 ， 我 们 要 使 用 Pellet 
OWL 推理 器 。 这 些 策略 存储 在 HDFS 中 ， 并 在 每 次 框架 加 载 时 由 访问 控制 单元 加 载 。 
23. 4.1.1 数据 生成 和 存储 

我 们 使 用 LUBM ( 见 本 章 参 考 文献 [GU005]) 数据 集 进行 实验 。 这 个 基准 数据 集 
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图 23.4 系统 架构 [RA Khaled, A. , Husain, M. F. , Khan, L., Hamlen, K. W. A 
Token - Based Access Control System for RDF Data in the Clouds, Proceedings of the 









2010 IEEE Second International Conference on Cloud Computing Technology and 
Science (CloudCom) , p. 104-111, 2010.© (2010) IEEE. ] 














被 研究 人 员 广 泛 使 用 〈 见 本 章 参 考 文 献 [GUO04]), LUBM 数据 生成 器 以 RDE/XML 序 
列 化 格式 生成 数据 。 这 种 格式 不 适合 我 们 的 目标 ， 因 为 我 们 将 数据 作为 平面 文件 存储 在 
HDFS 中 。 如 果 数 据 采用 RDE/XML 格式 ， 那 么 为 了 检索 单个 三 元 组 ， 我 们 需要 解析 整 
个 文件 。 此 外 ，RDFAXML 格式 不 适合 作为 Map/Reduce 作业 的 输入 。 因 此 ， 我 们 将 数 
据 存储 为 N - Triples ， 因 为 使 用 该 格式 ， 我 们 在 一 个 文件 行 中 就 具有 完整 的 RDF 三 元 组 
(主体 、 谓词 和 客体 ) ， 这 对 Map/Reduce 作业 非常 方便 。 但是， 我 们 将 数据 转换 为 N - 
Triples 格式 ， 需 通过 谓词 分 割 数 据 ， 这 一 步 叫 作 PS。 在 实际 的 RDF 数据 集中 ， 不 同 谓 
词 的 数量 不 超过 10 或 20 ( 见 本 章 参 考 文献 [STOC08 ] ) 。 此 分 区 减少 了 不 包含 变量 谓 
i] 〈 见 本 章 参 考 文献 [PRUD08]) 的 任何 SPARQL 查询 的 搜索 空间 。 对 于 这 样 的 查询 ， 
我 们 可 以 为 每 个 谓词 选择 一 个 文件 ， 并 仅 在 这 些 文件 上 运行 查询 。 为 了 简单 起 见 ， 我 们 
用 谓词 命名 文件 ， 例 如 ， 包 含 谓 词 pl : pred 的 所 有 三 元 组 都 存储 在 名 为 pl pred 的 文 
件 中 。 关 于 这 个 过 程 的 更 详细 的 描述 在 本 章 参考 文献 [HUSA10] 中 给 出 。 
23.4.1.2 示例 数据 
表 23. 1 显示 了 三 个 谓词 的 示例 数据 。 最 左边 的 列 显示 PS 步 又 后 学 生 客 体 的 文件 类 
型 ， 它 仅 列 出 具有 rdf: type 谓词 和 学 生 客 体 的 三 元 组 的 主体 。 其 余 的 列 在 PS 步骤 之 后 
289 
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显示 advisor, takesCourse 和 teacherOf 谓词 文件 。 每 行 都 有 一 个 主体 - 客体 对 。 在 所 有 人 情 
况 下 ， 可 以 从 文件 名 中 检索 谓词 。 
表 23.1 LUBM 查询 的 样本 数据 




















类 型 ub: advisor ub: takescourse ub: teacherOf 
GS, Student GS, A, GS, C; Ai C, 
GS, Student GS, A, GS, C, A, C, 
GS, Student GS, A, GS, Cs A4 C3 
GS, Student GS, A4 GS, C, A, C, 
GS, C, As Cs 
GS, C; 























来 源 : Khaled, A. , Husain, M. F. , Khan, L. , Hamlen, K. W. A Token - Based Access Control System for 
RDF Data in the Clouds, Proceedings of the 2010 IEEE Second International Conference on Cloud Computing Technology 
and Science (CloudCom) , p. 104-111, 2010. € (2010) IEEE. 


23.5 策略 实施 


我 们 的 Map/Reduce 框架 分 两 阶段 执行 策略 。 在 查询 解析 阶段 只 需 重 写 SPARQL 查 
询 即 可 执行 某 些 策略 。 剩 余 的 策略 可 以 通过 两 种 方式 在 查询 应 答 阶 段 实 施 。 首 先 ， 当 我 
们 运行 Map/Reduce 作业 以 回答 查询 时 ， 可 以 执行 策略 。 其 次 ， 可 以 像 查 询 一 样 执行 作 
业 ， 就 像 没 有 执行 任何 策略 一 样 ， 然 后 输出 并 运行 一 组 作业 来 执行 策略 。 这 些 后 处 理 的 
作业 称 为 过 滤 作 业 。 在 这 两 种 情况 下 ， 我 们 在 输入 选择 器 上 选择 输入 文件 时 执行 谓词 级 
策略 。 在 以 下 部 分 中 ， 我 们 将 详细 讨论 这 些 方法 。 


23. 5.1 查询 重 写 


可 以 通过 重 写 SPARQL 查询 来 执行 涉及 谓词 的 策略 。 这 涉及 用 户 有 权 访 问 的 谓词 蔡 
换 成 谓词 变量 。 一 个 例子 可 以 说 明 : 假设 用 户 的 AT 列表 由 ATT <1, predicate, 
takesCourses > 描述 的 ATI 组 成 〈( 即 用 户 只 能 访问 谓词 文件 takesCourse) 。 如 果 用 户 在 图 
23.5 左 侧 提交 了 查询 ， 我 们 可 以 用 谓词 文件 替换 谓词 变量 ? p， 重 写 的 查询 显示 在 图 
23.5 的 右 侧 。 查 询 重 写 后 ， 我 们 可 以 通过 两 种 方式 回答 查询 ， 详 细 介 绍 如 下 两 部 分 。 


SELECT ?o WHERE SELECT ?0 WHERE 
{A2p ?0} = {A takesCourse ?o] 
























































ran 


Al23.5 F 





写 前 后 的 SPARQL 查询 


23.5.2. BONS 


在 这 种 方法 中 ， 我 们 在 Hadoop 作业 回答 查询 时 执行 策略 ， 利 用 查询 语言 的 连接 机 
制 来 执行 这 种 策略 。 可 以 通过 这 种 方式 实施 涉及 URI、 文 字 等 的 策略 。 例 如 ， 假 设 仅 限 
于 少数 学 生 可 以 访问 某 些 机 密 课程 的 数据 。 如 果 无 特权 用 户 和 希望 列 出 学 生 所 采用 的 课 
程 ， 可 以 使 用 文件 takesCourse 加 入 列 出 机 密 课程 的 文件 ， 从 而 在 Hadoop 作业 的 Reduce 
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阶段 执行 所 需 的 策略 。 假 设 课程 C, 和 C, 是 保密 课程 。 如 果 非 特权 用 户 和 希望 列 出 GS, 所 
采用 的 课程 ， 那 么 我 们 可 以 通过 映射 和 规约 算法 2 和 3 中 所 示 的 代码 来 回答 查询 。 





算法 2: EEMAP 伪 代 码 
1: splits «— value . split () 
2: if Input file = sensitiveCourses then 
3: output (splits [0], “S”) 
4: — else if splits [0] = GS, then 
5: output (splits [1], ^17) 
6: end if 
算法 3: EEREDUCE 伪 代 码 
1: count — 0 
2: iter — values . iterator () 
3: while iter . hasNext () do 
Á: count - 
5: t4 iter. next () 
6: end while 
7: if count = 1 AND t= “T” then 
8: output (key) 
9: end if 
算法 2 Sha SBR BES, VH S—ÍTAM— 4 BERI BS 3 
自 机 密 课 程 文件 ， 则 输出 课程 和 一 个 标记 ( S" XR Bu 。 这 个 标记 月 























[0 果 输 入 来 
日 来 输出 主 





体 是 否 为 第 4 行 中 的 GS;。 如 果 是 ， 则 输出 课程 就 作为 键 和 用 于 表示 课程 是 学 生 GS, 的 


标记 (“T”)。 表 23.2 的 左 半 部 分 显示 了 示例 数据 运行 算法 2 的 输出 。 


算法 3 显示 了 规约 阶段 的 代码 。 它 获得 一 个 课程 作为 键 和 标志 字符 串 作 为 值 。 表 23. 2 





的 右 半 部 分 显示 了 示例 数据 运行 算法 3 的 输入 。 代 码 只 是 计算 学 生 GS, 的 数量 





(第 7 行 )， 





然后 输出 课程 〈 第 8 行 )。 学 生 GS, 选取 的 保密 课程 有 一 个 额外 的 标志 ， 将 计数 提高 到 2， 


防止 这 些 谋 程 被 报告 。 学 生 未 选取 的 机 蜜 课程 也 将 有 一 个 标志 ， 表 示 这 是 一 个 





机 密 课程 。 





我 们 要 检查 学 生 GS, 所 用 课程 的 标志 ， 是 否 防止 这 样 的 课程 被 报告 。 这 两 个 检查 一 起 确保 








GS, 所 选取 的 非 保密 课程 在 结果 中 输出 。 因 此 ， 输 出 中 只 出 现 课程 C, 。 
表 23.2 EEMap 输出 和 EEReduce 输入 

















EEMap 输出 EEReduce 输入 
键 值 键 值 
C, T C, q 
Cs S C3 S, T 
C; T C; S 
C, S 














X: Khaled, A. , Husain, M.F. , Khan, L. , Hamlen, K. W. A Token - Based Access Control System for 
RDF Data in the Clouds, Proceedings of the 2010 IEEE Second International Conference on Cloud Computing Technology 


and Science (CloudCom) , p. 104 - 111, 2010. € (2010) IEEE. 
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23.5.3 ”后 处 理 执行 


第 二 种 方法 如 同 没有 访问 控制 一 样 运 行 作 业 ， 然 后 运行 一 个 或 多 个 其 他 作业 ， 以 根 
据 策略 过 滤 输 出 。 这 种 方法 的 优点 是 实现 起 来 很 简单 ， 但 回答 查询 可 能 需要 更 长 的 时 
间 。 我 们 可 以 使 用 前 面 的 例子 来 说 明 这 种 方法 。 我 们 首先 运行 这 个 作业 ， 就 好 像 对 课程 
没有 限制 。 然 后 ， 我 们 再 执行 一 项 作业 来 执行 该 策略 。 这 个 额外 的 作业 需要 两 个 文件 作 
为 输入 : 第 一 个 作业 的 输出 和 包含 机 密 课 程 的 URI 的 confidentialCourses 文件 。 在 Map 
阶段 ， 我 们 输出 课程 作为 键 ， 根 据 输入 文件 ， 输 出 一 个 标志 字符 串 。 映 射 代码 与 算法 2 
大 致 相同 。 唯 一 的 区 别 是 ， 我 们 不 需要 检查 标识 学 生 的 URI， 因 为 第 一 个 作业 的 输出 将 
包含 只 有 该 学 生 所 选取 的 课程 。Reduce 阶段 的 代码 保持 不 变 。 因 此 ， 在 第 二 阶段 工作 
结束 时 ， 我 们 得 到 的 输出 结果 中 不 包含 任何 机 密 课 程 。 




































































23.6 ”实验 配置 和 结果 








我 们 在 具有 10 个 节点 的 Hadoop 集群 中 运行 了 实验 。 每 个 节点 具有 Pentium IV 2. 80 
GHz 处 理 器 ,4 GB 主 内 存 和 640 GB 磁盘 空间 。 操 作 系统 是 Ubuntu Linux 9. 04 。 我 们 将 
fA R DUET Zr dE 5 ge Ab ERA (17r dE HE AT T e Be fii Hj LUBM100、LUBM500、 
LUBMI000, LUBM2000, LUBM6000 和 LUBM9000 数据 集 进行 实验 。 

我 们 使 用 两 种 场景 来 比较 这 两 种 方法 : takeCourse 和 displayTeachers 。 在 takeCourse 
方案 中 ， 无 特权 用 户 无 法 让 任何 学 生 查 看 机 密 课程 列表 。 首 先 ， 提 交 一 个 查询 ， 以 显示 
一 位 特定 学 生 所 采取 的 课程 。 在 displayTeachers 场景 中 ， 非 特权 用 户 可 以 仅 查 看 讲师 的 
信息 。 通 过 提交 查询 ， 可 以 显示 在 特定 部 门 受 雇 的 人 员 的 URI。 尽 管教 授 、 助 理 教授 、 
副教授 等 在 该 部 门 受 雇 ， 但 是 由 于 策略 ， 只 有 讲师 的 URI 才能 返回 。 详 细 结 果 见 本 章 
参考 文献 [KHALIO], FETE, JADA d Je LER A X DUET TIES A 20% ~ 
80% 的 时 间 。 这 可 以 通过 后 处 理 所 需 的 额外 工作 来 轻松 解释 。 无 论 作业 的 输入 和 输出 数 
据 大 小 如 何 ，Hadoop 都 需要 大 致 相等 的 时 间 来 设置 作业 。 后 处 理 执行 方法 比 般 入 式 执 
行 方 法 需要 运行 更 多 的 工作 ， 从 而 产生 了 我 们 观察 到 的 更 多 开销 。 


























































































































23.7 总 结 和 展望 


相关 文献 中 已 经 广泛 讨论 了 单 台 机 器 上 的 RDF 数据 访问 控制 , 但 是 对 于 大 型 数据 
集 ， 这 些 系统 的 规模 处 理 能 力 仍 较 差 。 网 络 中 的 RDF 数据 量 正在 迅速 增长 ， 所 以 这 是 
一 个 严重 的 制约 。 处 理 这 些 数 据 的 最 有 效 方法 之 一 ， 是 将 其 存储 在 云 计 算 机 中 。 然 而 ， 
对 于 云 驻 留 的 RDF 数据 ， 访 问 控制 尚未 得 到 充分 地 应 用 。 我 们 的 实施 机 制 结合 了 基于 
令 牌 的 访问 控制 系统 ， 系 统 用 户 可 以 根据 业务 需求 和 授权 级 别 授 予 令 牌 。 目 前 ,我 们 正 
在 建立 一 个 包含 令 牌 并 能 解决 策略 冲突 的 通用 系统 。 目 标 是 实现 主体 模型 级 访问 ， 递 归 
提取 主体 的 客体 ， 并 将 这 些 客 体 视 为 主体 ， 只 要 这 些 客体 是 URI。 这 将 允许 具有 模型 级 
292 
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别 访问 的 代理 在 给 定 主体 上 生成 模型 。 

我 们 目前 的 工作 还 检查 了 混合 云 中 的 查询 处 理 安全 ( 见 本 章 参考 文献 [OKTA12] ) 。 未 
来 ， 我 们 将 探讨 云 查 询 处 理 的 各 种 访问 控制 模型 ， 并 进行 评 佑 。 这 将 使 我 们 能 更 好 地 了 解 最 
适合 云 查询 处 理 的 访问 控制 模型 。 
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24.1 概述 


Amazon S3 ( 见 本 章 参 考 文献 [ AMAZ]) 等 云 计算 服务 因 成 本 效 


MAE IZA, RANA 


统 存储 语义 Web 数据 的 可 行 性 。Blackbook 是 IARPA (情报 高 


基于 语义 Web 的 数据 集成 框架 





统 的 主要 目的 是 为 情报 分 析 人 员 提 供 易 于 使 用 





据 源 之 间 进 行 逻 辑 推理 
应 用 程序 界面 外 ， 它 还 ; 
数据 ， 从 而 谨慎 









































一 个 巨大 的 挑战 。 本 章 将 讨 ; 


， 并 与 使 用 该 系统 的 其 他 分 析 人 员 
通过 Web 服务 公开 其 服务 。Blackbook 集成 了 来 自 不 同 数据 源 的 
地 将 数据 源 存储 在 如 云 计 算 服 务 提供 的 共享 环境 中 。Blackbook 基本 上 


使 用 几 种 语义 数据 源 来 产生 搜索 结果 。 但 是 ， 以 安全 的 方式 在 





益 和 易 维护 等 因素 








经 评估 了 使 用 S3 存储 服务 ， 来 使 月 


情报 社区 的 Blackbook A 











级 研究 计划 局 ) 针对 构建 





( 见 本 章 参考 文献 [ BLAC]) f 
的 工具 ， 从 不 同 
Ur 


















































从 解决 这 个 问题 的 方法 。 


的 一 项 举措 。Blackbook A 
的 数据 源 访问 数据 ， 在 数 
这 些 知识 。 除 了 提供 Web 








云 环 境 中 存储 共享 数据 是 


在 我 们 的 方法 中 ， 我 们 以 安全 的 方式 存储 了 Amazon S3 上 的 一 本 BlackBerry 数据 源 ， 








从 而 在 基于 语义 Web 的 框架 中 利 





用 了 云 计算 服务 。 我 们 使 用 高 级 加 密 标准 ( 见 本 章 参 


考 文献 [AES] ) 加 密 数 据 源 ， 然 后 将 其 存储 在 Amazon S3 E, 此 外 ， 我 们 不 会 将 ed 


密 钥 存储 在 系统 的 任何 位 置 。 相 反 ， 密 钥 由 两 个 单独 的 组 件 生成 ， 
于 加 密 数 据 。 
Lamport 一 次 性 密码 (One Time Password, 
本 章 参 考 文献 [LAMP81 ] ) 方案 来 生成 客户 端 使 | 





钥 服务 器 ” 。 然 后 ， 生 成 的 密 钥 用 
为 了 防止 重 放 攻 击 ， 我 们 使 用 





























每 个 组 件 称 为 “ 


OTP) (JL 

















j 的 密码 ， 主 要 是 为 了 * : 密 钥 服务 器 ” 


认证 。 我 们 使 用 RBAC 模型 ( 见 本 章 参 考 文献 [SAND96] ) 来 限制 系统 访问 ， 授 权 用 





户 使 用 

在 本 章 中 ， 
组 架构 如 下 :; 在 24.2 节 中 ， 我 们 详细 介 
FEAT AH BG a 
























































Sun SCH XACML ( 见 本 章 参考 文献 [OASI] ) 实施 RBAC 策略 。 





我 们 将 描述 使 用 Blackbook 的 信息 集成 安 4 





框架 的 设计 和 实现 。 本 章 的 组 








绍 框架 的 实现 。24. 3 节 介 绍 实 验 结果 。24. 4 节 中 





望 。 我 们 工作 的 其 他 细节 可 以 在 本 章 参 考 文献 [PARI09] 和 


[PARI12] 中 找到 。 图 24.1 说 明了 本 章 包 含 的 内 容 。Blackbook 的 细节 可 以 在 本 章 参 考 文 


献 [BLAC] 中 找到 。 





将 Blackbook 与 
Amazon S3 集 成 





基于 云 的 信 
息 集 成 安全 


架构 与 
安全 模型 








实验 和 结果 





图 24.1 基于 云 的 信 


息 集成 安全 [ Parikh, P., M. Kantarcioglu, V. Khadilkar, B. M. Thuraisingham, and L. 
Khan; Secure information integration with a semantic web — based framework. Proceedings of the IEEE 13th Interna- 
tional Conference on Information Reuse and Integration (IRI2012) , Las Vegas, NV, 659-663.© (2012) IEEE. ] 
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24.2 将 Blackbook 5 Amazon S3 集成 


如 前 所 述 ， 基 于 语义 Web 的 数据 集成 框架 Blackbook 允许 从 各 种 数据 源 中 进行 数据 
集成 。 我 们 发 现 RDF 资源 是 通过 RESTful 的 Web 服务 发 布 的 最 佳 选择 。 由 于 RESTful 
的 Web 服务 和 语义 Web 都 要 处 理 资源 ， 因 此 通过 RESTful 接口 公开 RDF 资源 是 有 意义 
的 。 语 义 Web 等 技术 只 能 与 使 用 URI 识别 资源 的 Web 服务 配合 使 用 ， 因 此 ，REST 是 实 
现 基于 语义 Web 的 系统 的 Web 服务 的 理想 平台 ( 见 本 章 参 考 文献 [ PARIO9]) 。 

如 第 三 部 分 所 述 ， 云 计算 是 一 种 计算 模式 ， 其 中 扩展 是 动态 的 ， 通常 是 虚拟 化 的 资 
源 ， 是 通过 互联 网 提供 的 ( 见 本 章 参考 文献 [ CLOU] ) 。 该 概念 包含 以 下 组 合 : 

国 IaaS (基础 设施 即 服 务 ) 

Bl PaaS (平台 即 服 务 ) 

Bl SaaS (软件 即 服务 ) 

经 济 优 势 是 云 计算 模式 背后 的 主要 动机 之 一 ， 因 为 它 可 以 减少 资本 支出 (Capital 
Expenditure, CapEx) 和 运营 支出 (Operational Expenditure, OpEx) ( 见 本 章 参 考 文献 
[JENS09] ) 。 各 种 组 织 可 以 使 用 云 计算 基础 架构 共享 数据 和 计算 能 力 。 例 如 ，sales- 
force. com 是 CRM 领域 中 的 领导 者 ， 也 是 大 规模 利用 云 计算 基础 架构 的 先驱 之 一 。 由 于 
Blackbook 是 一 个 数据 集成 框架 ， 它 可 以 搜索 和 和 集成 来 自 可 能 位 于 本 地 计算 机 或 远程 服 
务 器 上 的 各 种 数据 源 的 数据 。 我 们 利用 Amazon S3 提供 的 数据 存储 服务 来 存储 Blackbook 
使 用 的 数据 源 。 

我 们 选择 Amazon S3 的 原因 如 下 : 

B 成 本 效益 : GB 每 月 低 至 0. 125 美元 的 存储 价格 。 

B 易于 使 用 : 可 以 通过 REST 和 SOAP Web 服务 调用 。 

B 可 靠 性 : 亚马逊 是 云 计算 的 重要 参与 者 ， 以 提供 可 靠 的 云 计算 服务 而 闻名 。 

当前 云 计 算 系 统 的 主要 挑战 之 一 就 是 隐私 风险 。 也 就 是 说 ， 隐 私 是 云 计 算 服 务 在 法 
律 遵从 和 用 户 信任 方面 的 重要 关注 。 在 本 章 参考 文献 [PEAR09] 中 ， 关 于 在 设计 ， 云 
计算 服务 时 应 如 何 考 虑 隐私 问题 作者 提供 了 一 些 有 趣 的 见解 。 本 章 参 考 文献 
[PEAR09] 中 说 明 的 主要 隐私 风险 包括 : 

B 因为 云 服务 用 户 被 迫 追 踪 或 者 根据 自己 的 意愿 提供 个 人 信息 。 

Bl 对 于 使 用 云 服务 的 组 织 : 不 遵守 企业 策略 ， 丧 失声 誉 和 信誉 。 

图 对 于 云 平台 的 实施 者 ， 存 储 在 平台 上 的 敏感 信息 的 暴露 ， 声 誉 和 信誉 的 丧失 。 

图 对 于 云 平 台 上 的 应 用 程序 提供 商 : 法 律 不 合 规 ， 声 誉 丧失 。 

B 对 于 个 人 信息 的 数据 主体 暴露 。 

我 们 在 实验 中 使 用 了 Amazon S3 。 如 本 章 参 考 文献 [AMAZ] PR, Amazon S3 是 互 
联网 的 存储 。 它 旨 在 使 开发 人 员 更 轻松 地 进行 全 网 规模 的 计算 。Amazon S3 提供 了 一 个 
简单 的 Web 服务 接口 ， 可 以 随时 从 网 络 上 的 任何 位 置 存储 和 检索 任何 数量 的 数据 。 它 
使 任何 开发 人 员 均 可 以 访问 具有 可 扩展 、 可 靠 、 快 速 、 便 宜 的 数据 存储 基础 设施 ， 这 些 
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特征 与 亚马逊 用 来 运行 自己 的 全 球 网 络 的 站 点 高 度 一 致 。 该 服务 旨 在 最 大 化 规模 效益 
下 ， 将 这 些 优 势 传递 给 开发 人 员 。 

许多 组 织 使 用 Amazon S3 等 服务 进行 数据 存储 。 其 中 需要 解决 的 一 些 重 要 问题 包 
括 : 我 们 在 S 上 存储 的 数据 是 否 安全 ? 组 织 之 外 的 任何 用 户 都 可 以 访问 吗 ? 我 们 如 何 
限制 组 织 内 用 户 对 文件 的 访问 ? 为 了 保护 我 们 的 数据 安全 ， 我 们 建议 在 上 传 到 Amazon 
S3 数据 文件 之 前 ， 使 用 AES 对 数据 进行 加 密 。 为 了 限制 对 组 织 内 用 户 的 文件 访问 ,我 
们 建议 使 用 XACML 实现 基于 角色 的 访问 控制 策略 。 在 RBAC 中 ,权限 与 角色 相关 联 ， 
用 户 成 为 相应 角色 的 成 员 。 这 能 简化 权限 的 管理 ( 见 本 章 参 考 文献 【SAND96 ] ) 。 对 应 
的 系统 架构 如 图 24. 2 所 示 。 

数据 源 以 加 密 形式 存储 在 Amazon S3 服务 器 上 。 用 于 加 密 数据 源 的 两 个 密 钥 存储 在 
两 个 服务 器 : 密 钥 服务 器 1 和 密 钥 服务 器 2。 与 不 同 用 户 的 数据 源 相关 联 的 策略 也 存储 
在 这 些 服务 器 上 。 

系统 使 用 OTP 进行 认证 ， 它 是 仅 对 单个 会 话 或 事务 有 效 的 密码 。OTP 避免 了 与 静 
态 密码 关联 的 缺点 ( 见 本 章 参 考 文献 [ONE])。 与 静态 密码 不 同 ， 它 们 不 易 受 到 重 放 
攻击 的 影响 。 因 此 ， 如 果 入 侵 者 设法 掌握 以 前 用 于 登录 服务 或 携带 事务 的 OTP， 则 系统 
的 安全 性 就 不 会 受到 损害 ， 因 为 该 密码 将 不 再 有 效 。OTP 的 唯一 缺点 是 人 类 无 法 记 住 
它 ， 因 此 需要 额外 的 技术 来 实现 。 
客户 
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图 24.2 系统 架构 [Parikh, P., M. Kantarcioglu, V. Khadilkar, B. M. Thuraisingham, and L. Khan. 
Secure information integration with a semantic web — based framework. Proceedings of the 
IEEE 13th International Conference on Information Reuse and Integration ( IRI2012) , 
Las Vegas, NV, 659 663. € (2012) IEEE. | 


OTP 生成 算法 利用 随机 性 ,来 防止 基于 以 前 观察 到 的 OTP 对 未 来 OTP 的 预测 。 生 
成 OTP 的 一 些 方法 如 下 : 
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图 根据 以 前 的 密码 ， 使 用 数学 算法 生成 新 密码 。 

B 基于 认证 服务 器 和 提供 密码 的 客户 端 之 间 的 时 间 同 步 。 

B 使 用 基于 挑战 (例如 ， 由 认证 服务 器 选择 的 随机 数 或 事务 细节 ) 和 /或 计数 器 的 
新 密码 的 数学 算法 。 

我 们 使 用 Lamport 的 OTP 方案 进行 身份 验证 。Lamport 的 OTP 方案 是 基于 生成 “ 密 
钥 ” 值 序列 的 数学 算法 ， 并且 每 个 后 续 值 基于 前 导 的 值 。Lamport 的 OTP 方案 的 核心 要 
求 是 ， 协 作 的 客户 端 / 服 务 右 组 件 同意 使 用 通用 的 排序 算法 ,来 生成 一 组 即将 到 期 的 
OTP (客户 端 ) ， 并 验证 每 个 客户 端 发 起 的 请 求 (服务 方 ) 中 包含 的 客户 端 提供 的 密 
钥 。 在 我 们 的 例子 中 ， 客 户 端 是 Blackbook 系统 ， 服 务 器 组 件 是 “ 密 钥 服务 器 ”。 客 户 
端 生 成 从 “种 子 ” 值 开始 的 有 限 序列 的 值 ， 并 且 每 个 后 继 值 通过 应 用 一 些 变换 算法 
[F (S) PC] 得 到 先前 的 序列 值 : 

SI =seed, S2=F (SI), S3=F (S2), S4=F (S3) --S [n] =F ($S [n - 1]) 

我 们 使 用 一 些 随机 生成 的 字 节 (使 用 SHA1PRNG) 对 用 户 加 盐 后 的 “密码 ”作为 
键 , 使 用 SHA -256 ( 见 本 章 参 考 文献 [SECUO2]) 生成 “种 子 ” 值 。 使 用 SHA - 256 
所 获得 的 “种 子 ” 值 生成 序列 中 的 下 一 个 值 。 所 有 这 些 生成 的 值 都 将 存储 在 客户 机 上 
的 堆栈 中 。 堆 栈 中 最 上 面 的 值 存储 在 “ 密 钥 服 务 器 ” (1&2) 上 。 如 果 客 户 端 首次 发 送 
请 求 ， 则 将 客户 端 堆栈 的 最 高 位 置 的 值 与 “ 密 钥 服 务 器 ”(1&2) 上 的 值 进行 比较 。 如 
果 值 匹配 ， 客 户 端 将 进行 身份 验证 ， 并 删除 客户 端 堆栈 上 的 最 高 位 置 的 值 。 对 于 后 续 请 
求 ， 客 户 端 堆栈 上 的 最 高 位 置 的 值 用 于 使 用 哈 希 函数 (用 于 构建 堆栈 ) 计算 后 续 值 。 
如 果 生 成 的 值 和 “ 密 钥 服务 器 ”上 的 值 匹 配 ， 则 认证 用 户 ， 客 户 端 堆栈 上 的 最 高 位 置 
的 值 存 储 在 “ 密 钥 服务 器 ”上 ， 随 后 从 客户 端 堆 栈 中 删除 。 如 果 客 户 端 堆栈 耗 尽 ， 将 
生成 一 个 新 的 堆栈 ， 并且 堆栈 上 的 最 高 位 置 的 值 仍 存储 在 “ 密 钥 服务 器 ”上 。 一 旦 用 
户 使 用 OTP 方案 进行 身份 验证 ， 就 根据 适用 于 资源 ( 本 例 中 的 数据 源 ) 的 策略 对 用 户 
请 求 进行 评估 并 由 用 户 请 求 访问 。 预 定义 的 策略 存储 在 “ 密 钥 服务 器 ”的 “策略 服务 
器 ”组 件 中 。 如 果 资 源 的 策略 适用 于 用 户 请 求 ,“ 密 钥 服 务 器 ”将 发 送 用 于 加 密 用 户 请 
求 资源 的 密 钥 。 

我 们 使 用 XACML 来 实现 使 用 XML 文件 中 定义 策略 的 访问 控制 。 在 用 户 通 过 系统 认 
证 后 ， 系 统 检 查 用 户 是 否 被 授权 访问 所 请 求 的 资源 。 用 户 请 求 由 PEP 处 理 ,将 用 户 的 
请 求 转换 为 XACML 请 求 ， 并 将 其 发 送 到 PDP 进行 进一步 评估 。PDP 对 请 求 进行 评估 ， 
并 发 送 响 应 ， 该 响应 可 以 是 “允许 访问 ”或 “访问 被 拒绝 ”， 并 附带 相应 的 职责 。 (我 
们 没有 考虑 到 我 们 系统 的 职责 。) 一 个 策略 可 以 是 以 下 几 个 子 组 件 的 集合 : 目标 、 规 
则 、 规 则 组 合算 法 和 职责 。 

目标 : 每 个 策略 只 有 一 个 目标 ， 有 助 于 确定 策略 是 否 与 请 求 相 关 。 策 略 与 请 求 的 相 
关 性 决定 了 是 否 对 请 求 进行 评估 ， 这 是 通过 定义 目标 主体 、 资 源 和 操作 中 三 个 类 别 的 属 
性 来 实现 的 。 例 如 ， 我 们 为 主体 指定 了 值 “testadmin@ blackbook. jhuapl. edu”， 为 资源 
指定 了 “Amazons3”。 

规则 ,通过 规则 ， 我 们 可 以 将 多 个 角色 与 策略 相关 联 。 每 个 规则 由 条 件 、 效 果 和 目 
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第 24 章 基于 云 的 信息 集成 安全 《9 
标 组 成 。 
条 件 是 关于 在 评估 时 返回 true, false 或 不 确定 的 属性 的 语句 。 
效果 是 对 要 满足 的 规则 假设 允许 或 者 拒绝 而 产生 的 后 果 。 我 们 已 经 将 该 值 指定 为 
允许 。 
目标 有 助 于 确定 某 一 规则 是 否 与 请 求 相关 。 
规则 组 合算 法 : 由 于 策略 可 以 有 各 种 规则 ， 不 同 的 规则 可 能 产生 冲突 的 结果 。 规 则 
组 合算 法 要 解决 这 种 冲突 ， 以 便 每 个 请 求 、 每 个 策略 获得 一 个 结果 。 只 有 一 种 规则 组 合 
算法 适用 于 一 种 策略 。 
Hxi. 职责 允许 相应 机 制 提供 更 精细 的 访问 控制 级 别 ， 而 不 仅仅 是 允许 和 拒绝 决 
策 。 它 们 是 PEP 必须 执行 的 行动 ， 同 时 执行 授权 决定 。 
成 功 的 认证 和 授权 后 ，Amazon 文件 管理 器 会 从 Amazon S3 服务 器 下 载 所 请 求 的 资 
源 。 更 具体 地 说 ， 密 钥 服 务 器 1 发 送 keyl, ， 密 钥 服务 器 2 发 送 key2 给 亚马逊 文件 管理 
器 。 通 过 对 这 些 密 钥 进行 XOR 操作 来 获取 keyorg， 也 就 是 说 ， 
keyorg = keyl XOR key2 
然后 ， 加 密 / 解 密 服务 提供 商 使 用 keyorg 来 解密 资源 。 
使 用 两 个 密 钥 服 务 器 的 主要 动机 是 避免 单一 故障 。 如 果 任 何 密 钥 服 务 器 被 黑客 入 
侵 ， 则 数据 不 会 因为 两 个 密 钥 而 受到 影响 ， 每 个 密 钥 服 务 器 都 需要 一 个 密 钥 来 解密 数据 
源 。 如 果 其 中 一 个 密 钥 服务 器 遭 到 入 侵 ， 并 且 存 储 在 该 服务 器 上 的 密 钥 受到 威胁 ， 则 我 
们 就 会 遇 到 存储 在 Amazon 上 的 数据 源 将 无 法 使 用 的 风险 ， 因 为 我 们 需要 两 个 密 钥 (每 
个 密 钥 服务 器 中 的 一 个 密 钥 ) 来 检索 原始 密 钥 ， 用 于 加 密 数据 源 。 为 了 避免 这 种 情况 ， 
我 们 建议 定期 备份 每 个 密 钥 服 务 器 上 的 密 钥 。 
场景 : 我 们 现在 将 描述 一 个 示例 场景 ， 其 中 描述 了 与 Amazon S3 存储 服务 的 交互 ， 
也 涉及 Blackbook AZ: 
1) JAF U 向 Blackbook 发 送 搜索 查询 (图 24.2 中 的 步骤 1) 。Blackbook 联合 各 种 
数据 源 的 查询 ， 包 括 安全 存储 在 Amazon S3 上 的 数据 源 下 。 
2) 遵循 OTP 方案 来 验证 客户 端 (在 这 种 情况 下 为 Blackbook) ， 以 使 用 AWS S3 月 
务 。 客 户 端 机 器 将 OTP 堆栈 上 的 最 高 位 置 的 值 与 用 户 凭证 和 请 求 ， 一 起 发 送 到 密 钥 月 
Fae 1&2 (图 24.2 中 的 步骤 2a 和 2b) 。 
3) 如 果 客 户 端 传递 的 值 与 密 钥 服务 器 的 OTP 堆栈 值 相 匹 配 ， 并 且 适 用 于 用 户 的 策 
略 ， 针 对 请 求 也 是 有 效 的 ， 则 密 钥 服务 器 发 送 用 于 解密 数据 源 的 “ 密 钥 ” (在 图 24.1 
中 步骤 3a 和 3b )。 
4) 从 密 钥 服务 器 1&2 中 获得 密 钥 keyl 和 key2 ， 然 后 进行 XOR 操作 ， 以 此 来 获得 
用 于 解密 数据 源 F 的 原始 密 钥 (图 24.2 中 的 步骤 4) 。 
5) 亚马逊 文件 管理 器 传递 Amazon 账户 凭证 和 数据 源 名 称 ， 以 检索 数据 源 (图 
24.2 中 的 步骤 5 和 6) 。 
6) 加 密 / 解 密 服 务 管理 器 检索 加 密 的 数据 源 ， 然 后 使 用 XOR 后 的 密 钥 解 密 数据 源 
(图 24.2 中 的 步骤 7 和 8)。 
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7) Blackbook 对 从 Amazon 获取 的 数据 源 和 其 他 数据 源 进 行 搜 索 ， 并 将 结果 返回 给 
用 户 (图 24.2 中 的 步 又 9) 。 

示例 XACML 请 求 : 属于 用 户 组 (主体 的 属性 ) 的 一 个 主体 testadmin @ 
blackbook. jhuapl. edu 尝试 对 资源 Amazons3 执行 读 取 操作 。 要 创建 这 样 一 个 请 求 ， 我 们 
需要 两 个 主体 属性 : 一 个 资源 属性 和 一 个 动作 属性 。 两 个 主体 属性 是 fc822Name (电子 
邮件 ID) 和 主体 所 属 的 组 。 一 个 资源 属性 是 资源 的 URI， 一 个 动作 属性 是 资源 上 的 读 
取 操 作 。 展 示 PEP 和 所 有 这 些 属性 生成 的 完整 列表 ， 在 本 章 参考 文献 [ PARI09] 中 
找到 。 


















































24.3 实验 


在 我 们 的 方法 中 ， 我 们 已 经 使 用 AES 将 数据 存储 在 Amazon S3 服务 器 之 前 进行 加 
密 。 在 Amazon 服务 器 中 上 传 数 据 是 一 次 性 过 程 。 仅 当 存储 的 数据 需要 修改 时 ， 才 需要 
重新 上 传 数 据 源 。 但 是 ， 每 当 用 户 向 Blackbook 系统 发 出 搜索 查询 时 ， 均 需要 下 载 存储 
在 Amazon S3 上 的 数据 源 。 由 于 数据 源 需要 在 每 次 发 出 查询 时 进行 解密 ， 所 以 可 能 会 影 
响 性 能 ， 因 为 加 密 和 解密 是 开销 昂贵 的 操作 。 

我 们 在 运行 Ubuntu Gutsy 7. 10 的 戴尔 台式 机 上 进行 了 实验 ， 硬 件 配置 如 下 : Intel? 
Pentium (B) 4 CPU 3. 00GHz, 1 GB RAM。 运 行 实验 时 的 网 络 带宽 在 250 Fl 300Mbiv/s 之 间 
变化 。 我 们 使 用 由 SP2B SPARQL Performance Benchmark ( 见 本 章 参 考 文献 [ SPAR] ) 提 
供 的 三 元 组 程序 生成 数据 文件 。 我 们 尝试 了 30 个 不 同 大 小 的 文件 ， 范 围 从 1 ~30 MB, 
实验 细节 在 本 章 参考 文献 [PARIO9] 中 给 出 。 




















24.4 总 结 和 展望 





云 计算 模式 在 当今 世界 越 来 越 重要 。 因 此 ， 云 计算 背景 下 的 数据 安全 和 隐私 等 问题 
已 经 引起 了 人 们 的 广泛 关注 。 在 本 章 中 ,我 们 描述 了 在 存储 到 如 Amazon S3 之 类 的 云 计 
算 服务 絮 之 前 ， 对 其 进行 加 密 来 保护 我 们 数据 的 技术 。 我 们 的 方法 是 新 汀 的 ， 因 为 我 们 
建议 使 用 两 个 密 钥 服 务 器 来 生成 和 存储 密 钥 。 此 外 ， 我 们 确保 比 一 些 其 他 已 知 方法 更 安 
全 ， 因 为 我 们 不 存储 用 于 加 密 数 据 的 实际 密 钥 。 即 使 一 个 或 两 个 密 钥 服务 器 受到 威胁 ， 
这 也 可 确保 对 我 们 数据 的 保护 。 我 们 的 实验 使 用 Blackbook ， 这 是 一 种 基于 语义 Web 的 
数据 集成 框架 ， 它 集成 了 各 种 数据 源 的 数据 。 

在 目前 的 方法 中 ， 我 们 从 用 户 的 每 个 请 求 中 下 载 数 据 源 。 在 将 来 ， 我 们 可 以 提供 组 
存 用 户 在 本 地 服务 器 上 请 求 的 数据 源 ， 并 通过 使 其 视 为 本 地 数据 源 将 缓存 数据 源 的 结果 
提供 给 用 户 。 这 种 方法 将 有 助 于 提高 性 能 。 此 外 ， 我 们 也 可 以 将 数据 源 划分 成 块 ， 然 后 
上 传 。 由 于 搜索 过 程 以 异步 方式 进行 ， 因 此 我 们 可 以 下 载 这些 块 ， 再 搜索 结果 ， 并 将 它 
们 一 次 显示 给 用 户 。 同 时 ， 应 用 程序 可 以 继续 下 载 其 他 块 。 我 们 还 可 以 跟踪 用 户 的 搜索 
记录 。 当 用 户 登 录 系统 时 ， 我 们 可 以 下 载 用 户 最 有 可 能 查询 的 块 。 
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本 部 分 的 章节 介绍 了 我 们 开发 的 云 安全 实验 系统 ， 包 括 云 查询 处 理 安 全 和 信息 集成 
安全 。 

在 第 22 章 中 ， 我 们 提出 一 个 允许 合作 组 织 安 全 地 共享 大 量 数据 的 系统 。 我 们 通过 
使 用 Hadoop 来 确保 组 织 有 一 个 很 大 的 通用 存储 区 域 。 此 外 ， 我 们 使 用 Hive 向 系统 的 用 
户 呈 现 数据 的 结构 化 视图 ， 并 且 还 使 得 它们 能 够 以 类 似 SQL 的 语言 来 查询 数据 。 

在 第 23 章 中 ， 描 述 了 存储 在 云 中 的 语义 Web 数据 的 访问 控制 机 制 。 我 们 实施 的 机 
制 结合 了 基于 令 牌 的 访问 控制 系统 ， 系 统 的 用 户 可 以 根据 业务 需求 和 授权 级 别 授予 
c2 

在 第 24 章 中 ， 我 们 描述 了 在 存储 到 Amazon S3 之 类 的 云 计 算 服务 器 上 时 ， 通 过 对 
其 进行 加 密 来 保护 我 们 数据 的 技术 。 我 们 的 方法 是 新 颖 的 ， 因 为 我 们 建议 使 用 两 个 密 钥 
服务 器 来 生成 和 存储 密 钥 。 此 外 ， 我 们 提供 了 比 一 些 其 他 已 知 方法 具有 更 多 的 安全 性 ， 
因为 我 们 不 存储 用 于 加 密 数 据 的 实际 密 钥 。 即 使 一 个 或 两 个 密 钥 服 务 器 受到 威胁 ， 这 也 
可 确保 对 数据 的 保护 。 
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第 七 部 分 面 癌 安全 应 用 的 云 实验 系统 


第 七 部 分 简介 
在 第 六 部 分 中 ， 我 们 讨论 了 云 计 算 安全 系统 的 原型 ， 在 第 七 部 分 中 ， 我 们 将 讨论 云 
计算 在 安全 功能 方面 的 应 用 。 也 就 是 说 ， 我 们 将 描述 我 们 开发 的 系统 ， 说 明 云 系统 如 何 
提供 安全 即 服务 。 
第 七 部 分 由 4 章 组 成 : 第 25 章 、 第 26 章 、 第 27 章 、 第 28 章 。 基 于 云 的 恶意 软件 
检测 系统 将 在 第 25 章 中 讨论 。 基 于 云 的 内 部 威胁 检测 将 在 第 26 章 中 讨论 我 们 研究 的 
云 中 信息 共享 系统 在 第 27 章 中 讨论 。 我 们 在 第 28 章 中 描述 基于 语义 云 的 信息 共享 系统 
的 设计 和 实现 。 语 义 云 是 向 消费 者 提供 语义 Web 服务 的 云 。 




























































































303 


第 2S 章 面向 演进 数据 流 的 基 
于 云 的 恶意 软件 检测 


25.1 概述 











恶意 软件 是 每 年 众多 网 络 被 攻击 成 功 的 重要 工具 ， 包 括 数据 以 及 身份 的 窃取 ， 系 统 
以 及 数据 的 损坏 和 拒绝 服务 。 因 此 这 对 许多 个 人 和 组 织 来 说 是 一 个 巨大 的 安全 威胁 。 从 
1999 年 到 2006 年 ， 全 球 范 围 内 由 恶意 软件 平均 每 年 造成 的 直接 损失 高 达 140 亿美 元 
( 见 本 章 参考 文献 [COMP07] ) 。 这 些 损失 包括 对 系统 分 析 修 复 以 及 杀毒 所 产生 的 劳动 
力 成 本 、 生 产 力 损 失 、 系 统 损失 或 性 能 下 降 导 致 的 收入 损失 ,以 及 由 于 攻击 而 直接 产生 
的 其 他 成 本 。 但 是 ， 直 接 经 济 损失 不 包括 预防 成 本 ， 比 如 杀毒 软件 、 硬 件 以 及 开 (fü 
ERR) 安全 人 员 的 工资 等 。 除 了 这 些 货币 损失 之 外 ,一 旦 被 成 功 攻 击 , 个 人 以 及 组 
织 可 能 经 常 遭 受 身份 瓷 取 、 信 息 盗 取 和 其 他 无 形 的 损失 。 

恶意 软件 包括 病毒 、 蠕 虫 、 特 洛 伊 木 马 、 时 间 和 逻辑 炸弹 、 人 僵尸 网 络 以 及 间谍 软 
件 。 研 究 人 员 已 经 制定 了 一 些 技术 来 应 对 这 些 攻 击 。 但 是 ， 当 研究 人 员 针 对 攻击 而 预防 
和 检测 成 功 的 次 数 越 来 越 多 时 ， 更 加 复杂 的 恶意 软件 代码 也 随 之 出 现 了 。 因 此 ， 恶 意 软 
件 编写 者 与 恶意 软件 防御 者 之 间 的 竞赛 将 持续 升级 。 签 名 检测 是 一 种 被 杀毒 界 广泛 应 用 
的 恶意 代码 检测 技术 。 这 种 技术 需要 将 不 可 信任 的 可 执行 文件 ， 与 唯一 的 标识 字符 串 或 
称 为 签名 的 字 节 模式 相 匹 配 ， 这 个 字符 串 被 用 作 特 定 恶 意 代码 的 标识 符 。 虽 然 签 名 检测 
技术 被 广泛 使 用 , 但 是 这 项 技术 对 0 - day 漏洞 攻击 (新 型 恶意 代码 )、 多 态 性 攻击 
(同样 二 进 制 的 不 同 加 密 ) 、 变 质 攻击 (同样 功能 的 不 同 代码 ) 并 不 是 有 效 的 ( 见 本 章 
参考 文献 [CRAN05 ] ) 。 因 此 为 了 预防 这 些 攻击 ， 我 们 现 需 要 一 种 更 快速 、 自 动 化 、 高 
效 且 健壮 的 检测 技术 。 

本 章 介绍 一 种 专用 于 自动 生成 签名 来 防御 这 些 攻击 的 数据 挖掘 技术 。 由 于 每 时 每 刻 
都 需要 运行 恶意 软件 检测 工具 ， 因 此 我 们 开发 了 基于 云 的 数据 挖掘 工具 。 我 们 将 在 本 章 
的 其 余部 分 中 描述 这 种 基于 云 的 工具 的 详细 设计 和 实现 。 

本 章 结 构 如 下 : 25.2 市 介绍 恶意 软件 检测 。25. 3 节 介绍 相关 工作 。25. 4 节 讨 论 分 
类 算法 以 及 分 析 证 明 其 有 效 性 。25. 5 节 介 绍 为 了 恶意 软件 检测 ， 而 进行 的 基于 云 计算 
的 特征 提取 和 选择 技术 。25. 6 节 讨 论 数据 采集 、 实 验 配置 、 评 佑 技术 和 结果 。25.7 节 
讨论 与 我 们 的 方法 有 关 的 几 个 问题 。25. 8 节 总 结 我 们 的 方法 。 图 25. 1 说 明了 本 章 包 含 
的 概念 。 
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第 25 章 面向 演进 数据 流 的 基于 云 的 恶意 软件 检测 O3 
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图 25.1 面向 演进 数据 流 的 基于 云 的 恶意 软件 检测 















































25.2 ”恶意 软件 检测 


25.2.1 作为 数据 流 分 类 问题 的 恶意 软件 检测 


使 用 数据 挖掘 检测 恶意 软件 的 问题 ( 见 本 章 参考 文献 [SCHUO1], [KOLT04], 
[MASU08a]) 涉及 将 每 个 可 执行 文件 分 为 良性 或 恶意 程序 。 过 去 的 大 多 数 工 作 把 这 个 
问题 处 理 为 静态 数据 分 类 问题 ， 其 中 分 类 模型 是 用 固定 训练 数据 训练 的 。 但 是 ， 恶 意 软 
件 的 不 断 进化 、 创 新 和 升级 的 速度 并 不 适合 静态 训练 。 检 测 不 断 更 新 的 恶意 软件 应 该 被 
更 好 地 处 理 为 数据 流 分 类 问题 。 在 这 种 模式 中 ， 数 据 流 是 一 连 串 可 执行 文件 且 每 个 数据 
点 就 是 一 个 可 执行 文件 。 数 据 流 是 无 限 长 的 ， 而 且 这 种 方式 还 能 观察 到 概念 漂移 。 因 为 
攻击 者 不 断 地 开发 新 的 技术 以 及 改变 恶意 代码 的 特征 ， 以 避免 被 检测 。 同 样 ， 良 性 可 执 
行文 件 的 特性 也 随 着 编译 器 与 操作 系统 的 演进 而 改变 。 

数据 流 分 类 是 数据 挖掘 网 络 交流 社区 积极 研究 的 主要 领域 ， 需 要 克服 至 少 3 个 挑 
lk: 第 一 ， 为 了 训练 目的 ， 在 无 限 长 的 概念 漂移 中 ， 存 储 和 维护 潜在 的 无 限 历史 数据 是 
不 可 行 的 。 第 二 ， 分 类 器 模型 必须 不 断 适 应 数据 流 的 概念 漂移 。 第 三 ， 如 果 数 据 流 中 没 
有 数据 点 相对 应 的 预定 义 特征 空间 ， 那么 随 着 数据 流 的 演进 ， 新 的 具有 高 识别 力 的 特征 
就 必须 被 选择 和 提取 ， 这 被 称 为 特征 演进 。 

前 两 个 问题 的 解决 方案 是 相关 联 的 。 概 念 漂移 需要 改进 假设 以 适应 新 概念 ， 大 多 数 
旧 的 数据 必须 从 训练 数据 集中 丢弃 。 因 此 ， 挖 掘 概念 漂移 数据 流 中 一 个 主要 问题 是 选择 
适当 的 训练 实例 来 学 习 概念 的 演进 。 解 决 第 三 个 问题 需要 一 个 持续 的 特征 选择 过 程 ， 因 
为 新 的 和 更 强大 的 特征 可 能 会 出 现 ， 旧 的 特征 也 可 能 随 着 概念 的 演变 而 变 得 不 那么 有 优 
势 。 如 果 特 征 空间 足够 大 ， 则 特征 提取 和 选择 的 运行 时 间 和 内 存 要求 会 成 为 数据 流 分 类 
系统 的 瓶颈 。 

解决 概念 漂移 的 一 种 方法 是 选择 和 存储 那些 最 符合 目前 概念 的 训练 数据 集 (UL 
章 参考 文献 [FAN04] ) 。 另 外 一 些 方法 ， 比 如 超 快速 决策 树 (Very Fast Decision Trees, 
VFDT) ( 见 本 章 参考 文献 [Domingos 和 HULT00] ) ， 当 新 数据 出 现时 更 新 现 有 的 分 类 模 
型 。 但 是 过 去 的 研究 表明 ， 集 成 技术 在 处 理 突 发 变化 和 概念 漂移 时 展现 出 强大 的 稳定 性 
( 见 本 章 参考 文献 [WANG03] 、[SCHO05] [KOLTOS ] ) 。 这 些 技术 都 能 维持 一 个 分 
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类 器 的 集成 ， 并 在 新 的 数据 出 现时 更 新 该 集成 。 

我 们 设计 并 开发 了 一 种 多 分 区 、 多 块 集成 的 分 类 算法 ， 这 种 算法 泛 化 了 现 有 的 集成 

方法 。 通 过 对 真实 数据 流 的 测试 证 明 ， 这 种 泛 化 相对 于 现 有 的 单 分 区 、 单 块 集成 方法 来 
说 显著 提高 了 分 类 的 准确 性 。 在 我 们 方法 中 的 集成 包括 Ko 个 分 类 器 ,天 是 一 个 常数 ，" 
是 分 区 的 数量 。 我 们 稍 后 将 会 解释 它们 。 
我 们 的 方法 将 数据 流 分 成 相等 大 小 的 块 。 块 的 大 小 通过 每 块 数 据 都 应 适合 主 内 存 来 
确定 。 被 标记 的 每 个 块 都 被 用 来 训练 分 类 器 。 当 新 的 数据 块 被 标记 时 ， 集 成 也 跟着 被 更 
新 。 我 们 将 个 最 近 标 记 的 连续 数据 块 分 为 "个 分 区 ， 并 且 每 个 分 区 都 被 用 来 训练 分 类 
器 。 因 此 ，r 个 连续 数据 块 用 于 训练 "个 分 类 器 ， 然 后 ， 通 过 在 新 训练 的 " 个 分 类 器 和 
现 有 的 Kv 个 分 类 器 之 间 选 择 最 好 的 Ko 个 分 类 需 (基于 准确 性 ) ， 来 更 新 集成 。 所 以 集 
成 中 分 类 器 的 总 数 将 保持 不 变 。 因 此 我 们 的 方法 通过 分 区 数 v、 块 数 + 以 及 集成 大 小 天 
来 参数 化 。 

我 们 的 方法 不 再 假设 流 中 出 现 的 新 数据 点 立即 被 标记 。 相 反 ， 它 会 延迟 整体 更 新 过 
程 ， 直 到 最 新 数据 块 中 数据 点 的 标签 变 得 可 用 。 与 此 同时 ， 新 的 未 被 标记 的 数据 被 现 有 
的 集成 持续 分 类 。 因 此 ， 该 方法 非常 适合 于 错误 分 类 从 专家 用 户 或 其 他 来 源 请 求 校 正 标 
签 的 应 用 。 例 如 ， 考 虑 到 在 线 信 用 卡 欺 骗 检 测 问题 。 当 一 个 新 的 信用 卡 发 生 交 易 时 ， 它 
的 分 类 (欺诈 或 真实 ) 是 使 用 当前 的 集成 预测 的 。 假 设 一 个 坎 诈 交易 被 误 判 为 真实 交 
易 ， 当 客户 收 到 银行 对 账单 时 ， 他 会 识别 该 错误 并 向 当局 报告 。 通 过 这 种 方法 ， 获 得 数 
据点 的 实际 标签 并 且 相 应 更 新 集成 。 


25.2.2 将 云 计 算 用 于 检测 恶意 软件 


如 果 数 据点 的 特征 空间 不 是 固定 的 ， 则 分 类 问题 的 子 问 题 是 描述 每 个 数据 点 特征 的 
选择 和 提取 。 在 早期 的 工作 (例如 ， 本 章 参 考 文献 【KOLT04] ) ， 我 们 使 用 二 进 制 半 =- 
grams 作为 恶意 软件 检测 特征 。 但 是 ， 由 于 n-grams 总 数 可 能 非常 大 ， 我 们 会 明智 地 选 
择 那 些 具 有 最 好 鉴别 力 的 n-grams。 这 个 选择 的 过 程 是 持续 的 。 随 着 数据 流 的 演进 ， 新 
A n — grams 将 出 现 并 且 要 比 旧 的 n-grams 更 占据 主导 地 位 。 在 我 们 的 模型 中 ,为 了 在 
特定 的 时 期 确定 最 好 的 特征 ， 这 些 新 的 n-grams 往往 要 取代 旧 的 n-grams。 

对 于 大 型 数据 集 来 说 ， 单 纯 实现 特征 的 提取 与 选择 过 程 ， 既 可 以 基于 时 间 密 集 型 也 
可 以 基于 存储 密集 型 。 例 如 ， 我 们 在 之 前 的 工作 中 ( 见 本 章 参考 文献 [ MASU08a]) , 
从 语料库 中 提取 的 25000 HA n 连 字 捉 中 只 有 3500 个 可 执行 文件 ， 这 种 特征 提取 的 过 
程 需 要 大 量 的 虚拟 内 存 开销 (相关 性 能 开销 ) ， 因 为 不 是 所 有 的 特征 都 能 存储 在 主 存储 
器 。 提 取 和 选择 特征 对 一 个 四 核 处 理 器 和 12GB 内 存 的 计算 机 来 说 ， 需 要 大 约 两 个 小 时 
的 计算 时 间 和 多 个 GB 的 磁盘 空间 。 况 且 这 是 使 用 纯 静 态 数据 集 ， 但 当 数 据 集 是 动态 流 
时 ,提取 和 选择 必须 重复 ， 这 将 会 面临 一 个 重大 难题 。 本 章 中 ,我们 考虑 包含 10.5 万 
个 可 执行 文件 的 更 大 数据 集 ， 这 对 我 们 之 前 的 方法 来 说 是 不 可 能 胜任 的 。 

因此 ， 我 们 设计 和 开发 了 可 扩展 的 选择 和 提取 方案 ， 主 要 是 利用 了 云 计 算 框 架 
( 见 本 章 参 考 文献 [DEAN08 ] ) 。 我 们 也 说 明了 ， 根 据 集群 节点 的 可 用 性 ， 特 征 提 取 和 
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选择 的 运行 时 间 可 以 在 一 定 程度 上 减少 ,减少 的 原因 在 于 因子 m, m 是 云集 群 中 的 节点 
数 。 节 点 是 廉价 硬件 商品 的 机 器 。 因 此 ， 解 决 方案 也 是 性 价 比较 高 的 ， 因 为 不 需要 使 用 
高 端 计算 设备 。 


25.2.3 我 们 的 贡献 


我 们 的 贡献 可 以 概括 如 下 。 我 们 设计 并 开发 了 一 种 广泛 的 多 分 区 、 多 块 集成 技术 ， 
明显 降低 了 现 有 单 分 区 、 单 块 集成 方法 的 预期 分 类 误差 。 并 通过 理论 分 析 证 明了 该 方法 
的 有 效 性 。 然 后 ， 我 们 将 恶意 软件 检测 问题 定 为 数据 流 分 类 问题 ， 并 证 明 出 传统 的 恶意 
代码 检测 技术 相对 于 我 们 的 数据 挖掘 方法 的 缺点 。 

我 们 针对 这 个 问题 利用 云 计算 框架 设计 开发 了 一 种 可 扩展 和 具有 高 性 价 比 的 解决 方 
案 。 最 后 ， 将 我 们 的 技术 应 用 于 综合 生成 的 数据 ， 以 及 真正 的 僵尸 网 络 传输 和 真实 的 恶 
意 可 执行 软件 ， 结 果 获 得 了 比 其 他 流 数据 分 类 技术 更 好 的 检测 精度 。 结 果 表 明 ， 在 面向 
基于 数据 流 分 类 的 入 侵 检测 中 ， 我 们 的 集成 技术 是 功能 强大 的 工具 。 


25.3 相关 工作 


我 们 的 工作 与 恶意 软件 检测 和 数据 流 挖掘 技术 相关 。 这 两 部 分 都 会 在 本 章 讨论 。 传 
统 的 基于 签名 的 恶意 软件 检测 器 ， 通 过 扫描 不 可 信 的 二 进 制 文件 ， 来 区 分 字 节 序列 或 特 
征 来 检测 恶意 软件 。 在 特征 数据 库 中 维护 恶意 软件 特有 特征 ， 必 须 在 新 的 恶意 软件 被 发 
现 和 分 析 的 情况 下 不 断 更 新 。 传 统 意 义 上 ， 当 新 的 恶意 软件 出 现 并 被 分 析 后 ， 人 类 专家 
手动 派生 、 更 新 和 传播 签名 数据 库 。 但 是 ， 在 过 去 十 年 来 ， 新 的 恶意 软件 出 现 率 逐步 提 
升 和 自我 突变 ， 多 态 恶 意 软件 的 出 现 使 手动 签名 更 新 变 得 不 切实 际 。 从 而 推动 了 自动 化 
数据 挖掘 技术 来 检测 恶意 软件 (例如 ， 本 章 参 考 文献 [ KOLT04 ] 、[ SCHUOI ] 、 
[MASU08a] 、[ HAMLO9 ] )。 这 种 方法 能 够 自动 推断 出 以 往 看 不 到 的 恶意 软件 的 签名 。 
基于 数据 挖掘 方法 来 分 析 可 执行 文件 的 内 容 ， 并 且 当 发 现 特定 的 特征 组 合 时 将 其 归 类 
为 恶意 软件 。 首 先 通 过 训练 这 些 恶 意 软件 检测 器 ， 来 让 它们 可 以 归纳 出 恶意 或 良性 可 执行 
文件 之 间 的 区 别 ， 从 而 检测 出 未 来 恶意 软件 的 实例 。 训 练 过 程 包括 特征 提取 和 利用 特征 建 
模 。 基 于 数据 挖掘 技术 的 恶意 软件 检测 器 的 不 同 之 处 ， 在 于 区 分 特征 是 如 何 提取 和 利用 哪 
种 机 器 学 习 技 术 建 立 模型 。 这 些 技术 的 性 能 在 很 大 程度 上 取决 于 被 提取 特征 的 质量 。 
在 本 章 参 考 文献 [SCHU01] 的 论述 中 ， 作 者 从 Windows PE 可 执行 文件 的 标题 ， 以 
及 可 执行 内 容 的 2 字 节 序列 中 ， 提 取 DLL 调用 信息 (使 用 GNU binutils) 和 字符 串 (使 
用 GNU 字符 串 ) 。 这 些 DLL 调用 、 字 符 串 和 字 节 被 用 来 作为 特征 进行 训练 模型 。 使 用 
两 种 不 同 的 机 器 学 习 技 术 来 训练 模型 : RIPPER ( 见 本 章 参考 文献 [COHE96 ] ) 和 朴素 
贝 叶 斯 ( Naive Bayes, NB) ( 见 本 章 参 考 文献 [MICH94] ) ， 目 的 是 为 了 比较 它们 的 相对 
性 能 。 见 本 章 参 考 文献 [KOLTOA] 中 ， 作 者 从 可 执行 文件 中 提取 二 进 制 n - gram 的 特 
正 ， 并 将 其 应 用 到 不 同 的 分 类 方法 中 ， 比 如 天 -邻接 (K - Nearset Neighbor, KNN) (IL 
本 章 参考 文献 [AHA9%1] 、NB 、 支 持 向 量 机 (Support Vector Machines, SVM) ( 见 本 章 
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参考 文献 [BOSE92 ] ) 、 决 策 树 ( 见 本 章 参考 文献 [QUIN03] ) 和 Boosting 算法 ( 见 本 
章 参考 文献 [FREU96 ] ) Boosting 算法 与 其 他 各 种 学 习 算 法 相 结合 以 获得 改进 的 模型 
(比如 增强 决策 树 ) 。 我 们 之 前 基于 数据 挖掘 检测 恶意 软件 的 工作 ( 见 本 章 参 考 文献 
[MASU08a] ) ， 主 要 是 从 可 执行 文件 中 提取 二 进 制 n-grams， 从 反 汇 编 的 可 执行 文件 中 
提取 汇编 指令 序列 ， 并 从 程序 头 中 提取 DLL 调用 信息 。 在 此 项 工作 中 使 用 的 分 类 器 模 
型 是 SVM 、 决 策 树 、NB 、 增 强 决 策 树 和 增强 NB, 

Hamsa 和 Polygraph ( 见 本 章 参考 文献 [LI06] 、[ NEWS05] ) 应 用 一 种 简单 的 数据 挖 
掘 形式 ， 自 动 生成 使 用 二 进 制 半 连 字 串 作为 特征 的 蠕虫 签名 。 如 果 标 签 仅仅 出 现在 恶意 
二 进 制 文件 ( 即 阳性 ) 中 而 没有 出 现在 良性 文件 中 ， 就 确定 一 组 n-grams 为 蠕虫 标签 。 
这 在 两 个 重要 方面 不 同 于 我 们 之 前 讨论 的 传统 的 数据 挖掘 技术 (包括 我 们 的 ) : 第 一 ， 
Hamsa 和 Polygraph 将 注意 力 局 限 在 仅仅 出 现在 恶意 软件 池 中 的 n- grams, FA, 传统 
数据 挖掘 技术 也 考虑 出 现在 良性 池 中 的 n 元 模型 来 提高 分 类 准确 性 。 第 二 ，Hamsa 和 
Polygraph 通过 简单 存在 一 组 n - grams 来 定义 签名 匹配 ， 而 传统 的 数据 挖掘 方法 构建 了 
基于 特征 存在 和 不 存在 的 样本 匹配 的 分 类 模型 。 传 统 数据 挖掘 技术 因此 推广 了 Hamsa 
和 Polygraph 的 方法 ， 并 且 也 相应 增加 了 功能 。 

过 去 所 有 的 工作 几乎 都 已 经 将 恶意 软件 检测 当 作 静 态 数据 分 类 问题 进行 了 处 理 ， 并 且 使 
用 固定 的 训练 数据 分 类 器 模型 。 然 而 ， 随 着 恶意 软件 作者 采用 的 新 型 恶意 软件 和 新 的 混淆 策 
略 的 迅速 出 现 ， 引 进 了 一 个 违反 静态 范例 问题 的 动态 组 件 。 因 此 我 们 认为 ， 有 效 的 恶意 软件 
检测 必须 越 来 越 多 地 被 当 作 数 据 流 分 类 问题 来 看 待 ， 以 跟 上 攻击 技术 发 展 的 步伐 。 

许多 现 有 的 数据 流 分 类 技术 针对 的 是 无 限 长 度 的 数据 流 ， 这 些 数据 流 显 示 有 概念 漂 
移 ( 见 本 章 参 考 文献 [ ACGR06]、[ WANG03]、[ YANG05 ] 、[KOLT05] [ HULTOI ] 、 
[FAN04] 、[GA007] 、[ HASH09] 、[ZANG09] )。 所 有 的 这 些 技术 采用 单 向 增 量 更 新 方 
法 ， 但 是 却 使 用 不 同 的 增 量 更 新 机 制 。 大 多 数 可 以 分 为 两 大 类 : 单 模型 增 量 方法 和 混合 
批量 增 量 方法 。 

单 模型 增 量 更 新 动态 更 新 单个 模型 时 ， 涉 及 每 个 新 的 训练 实例 。 例 如 ， 决 策 树 模型 
可 以 根据 输入 数据 增 量 更 新 ( 见 本 章 参考 文献 [HULT01] ) 。 相 反 ， 混 合 批量 增 量 方法 
使 用 传统 批量 处 理学 习 技 术 ， 从 一 批 训练 数据 构建 每 个 模型 。 旧 的 模型 随 着 较 新 模型 的 
出 现 定期 被 替换 ( 见 本 童 参考 文献 [WANGO3], [BIFF09], [YANGOS], [FAN04], 
[GA007]) , 一 些 混合 方法 使 用 一 种 单一 模型 分 类 未 标记 数据 (例如 本 章 参考 文献 
[YANG05] 和 [CHEN08] ) ， 而 其 他 则 使 用 集成 模型 (例如 本 章 参 考 文献 【WANG03 ] 
和 [SCHO05 ] ) 。 混 合 方法 的 优点 是 模型 更 新 通常 比 单 模型 方法 简单 得 多 。 例 如 ， 集 成 
时 的 分 类 器 可 以 简单 地 被 移 除 或 更 换 。 然 而 ， 通 过 逐步 更 新 集成 时 的 分 类 器 ,来 组 合 这 
两 种 方法 的 其 他 技术 可 能 相对 更 复杂 ( 见 本 章 参 考 文献 [ KOLTOS ] ) 。 

精度 加 权 分 类 器 集合 (Accuracy Weighted Classifier Ensembles, AWE) ( 见 本章 参 考 
文献 [WANGO3], [SCHO05]) 是 混合 增 量 式 集成 分 类 器 的 一 个 重要 类 别 ， 它 通过 加 
权 多 数 投票 进行 分 类 。 通 过 将 数据 流 切 割 成 相同 大 小 的 块 ， 每 个 块 用 于 训练 一 个 分 类 器 
模型 。 包 含 开 个 这 样 模 型 的 集成 来 分 类 未 标记 的 数据 。 每 当 一 个 新 的 数据 块 被 标记 ， 
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将 从 该 块 中 训练 一 个 新 的 分 类 器 。 这 个 分 类 器 取代 集成 中 一 个 现 有 的 分 类 器 。 通 过 评估 
每 个 分 类 器 在 最 新 训练 块 上 的 准确 性 来 选择 被 取代 的 分 类 器 。 这 些 集 成 方法 的 优点 是 可 
以 比 不 断 更 新 的 单一 模型 更 有 效 地 构建 它们 ， 并 且 它 们 也 可 以 比 单一 模型 具有 更 高 的 精 
E 〈 见 本 章 参 考 文献 [TUME96 ] ) 。 

我 们 的 集成 方法 与 AWE 分 类 器 密切 相关 ， 但 仍 有 一 些 显著 差异 。 首 先 ， 我 们 采用 
训练 数据 的 多 分 区 来 构建 来 自 训练 数据 的 个 分 类 器 。 第 二 ， 训 练 数 据 由 个 连续 数据 
块 〈 即 分 块 方法 ) 而 不 是 一 个 单一 数据 块 组 成 。 我 们 已 经 在 分 析 和 经 验 上 证 明了 这 两 
个 功能 的 加 强 ， 即 多 分 区 和 多 块 ， 明 显 降低 了 整体 分 类 误差 ( 见 本 章 参考 文献 
[MASU11]) 。 第 三 ， 当 我 们 更 新 集合 时 ，" 个 新 训练 的 分 类 器 代替 "个 旧 的 分 类 器 。 被 
蔡 换 的 ov 个 分 类 器 可 能 来 自 不 同 的 块 。 因 此 ， 虽 然 某 个 块 中 的 分 类 器 从 集成 中 被 移 除 ， 
日 是 块 中 的 其 他 分 类 器 仍 可 能 存在 于 集成 中 。 这 不 同 于 AWE， 其 中 删除 分 类 器 意味 着 
完全 删除 从 一 个 整 块 中 获得 的 知识 。 我 们 的 替换 策略 也 有 助 于 减少 误差 。 最 后 我 们 采用 
简单 的 多 数 投票 ， 而 不 使 用 加 权 投 票 ， 因 此 这 样 更 适用 于 数据 流 ， 如 本 章 参考 文献 
[GAO07] 所 论述 的 那样 。 因 此 ， 我 们 的 多 分 区 、 多 块 集成 方法 是 由 AWE 实施 的 更 为 
普遍 和 有 效 的 形式 。 

我 们 之 前 就 已 经 公开 了 在 这 个 工作 上 所 进行 的 扩展 〈 见 本 章 参 考 文献 [ MASU09 ] ) 。 
大 多 数 现 有 的 数据 流 分 类 技术 ， 包括 我 们 以 前 的 工作 都 会 假设 数据 流 中 数据 点 的 特征 空 
间 是 固定 的 。 但 是 ， 在 一 些 情况 下 ， 如 文本 数据 ， 这 一 假设 是 无 效 的 。 例 如 ， 当 特征 是 
单词 时 ， 由 于 新 单词 频繁 出 现 ， 因 此 在 流 的 开头 处 不 能 完全 确定 特征 空间 。 另 外 ， 很 可 
能 词典 中 的 大 部 分 词 具有 和 较 低 的 辨别 力 ， 所 以 从 特征 空间 中 最 好 去 掉 它们 。 这 样 做 ， 对 
每 个 数据 点 选择 候选 特征 的 子 集 来 说 ， 会 更 高 效 快捷 。 随 着 更 具有 鉴别 能 力 的 候选 特征 的 
出 现 和 旧 特 征 的 过 时 ， 这 种 特征 选择 必须 进行 增 量 更 新 。 因 此 特征 选择 和 提取 应 该 是 数据 
流 分 类 的 一 个 重要 组 成 部 分 。 本 章 中 ， 我 们 使 用 云 计算 框架 设计 和 实施 一 个 高 效 可 扩展 性 
的 特征 提取 和 选择 技术 ( 见 本 章 参 考 文献 [ZHA009] 、[DEAN08] ) 。 这 种 方法 取代 了 我 
们 以 前 的 工作 ， 因 为 它 考虑 了 当 特 征 空间 无 法 预料 时 ， 数 据 流 分 类 中 所 产生 的 真正 挑战 。 
这 有 利于 应 用 我 们 的 技术 ， 在 不 断 变化 的 大 数据 集中 检测 真实 可 执行 的 恶意 软件 ， 从 而 显 
示 亚 意 软件 实例 。 随 着 时 间 的 演进 ， 各 种 较 新 的 恶意 软件 也 可 以 被 检测 出 来 。 








































































































































































































25.4 系统 设计 与 实现 


25.4.1 集成 结构 与 更 新 


我 们 的 扩展 、 多 分 区 、 多 块 (Extended, Multi - Partition, Multi - Chunk, EMPC) 集 

合 学 习 方 法 维护 最 新 的 、 最 好 的 Ku 个 分 类 器 的 一 个 集合 4 = JA, Aces Ag to 每 当 

一 个 新 的 数据 块 D, 到 达 ， 将 使 用 集合 4 测试 该 数据 块 。 当 块 D, 被 标记 时 ， 集合 就 被 更 
新 。 分 类 过 程 采 用 简单 的 多 数 表决 方式 。 

集成 结构 更 新 过 程 如 图 25. 2 所 示 ， 并 总 结 成 算法 1。 算 法 的 第 1 ~3 行 计算 块 D, 上 每 

个 分 类 器 4, s4 的 错误 ， 其 中 D, 是 已 标记 的 最 近 的 数据 块 。 今 D 是 最 近 标 记 的 7 个 数据 
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块 的 数据 ， 包 括 Dp,。 第 5 行 随机 把 DD 平均 分 为 v 个 部 分 1d,，…，d,|， 所 有 的 部 分 都 有 
大 致 相同 的 类 分 布 。 第 6 ~9 行 训练 一 组 新 的 v 个 分 类 器 ， 每 个 分 类 器 4" 被 数据 集 D - d; Vl 
练 ， 使 用 每 个 分 类 右 对 应 的 测试 数据 来 测试 每 个 分 类 器 4” e 4" 的 错误 率 。 最 终 ， 第 10 17 
基于 每 个 分 类 器 第 2 ~8 行 计算 的 错误 率 ， 从 A UA 中 的 (Ko +0) 个 分 类 器 中 来 挑选 最 佳 
Ko Sy 2848, TERE EIS n 组 v 个 分 类 器 中 任何 子 集 都 可 能 被 挑选 进入 新 集合 。 





















































被 标记 块 
数据 块 

未 被 标记 块 
分 类 器 无 限 长 地 址 和 概念 漂移 
集合 预测 











图 25.2 集成 结构 


算法 1: 更 新 分 类 器 集成 

输入 : (D, assu Da} ?个 最 近 标 记 的 数据 块 
A: 当前 最 好 的 kv 个 分 类 器 集 
输出 : 更 新 集合 4 

1: for each classifier A, € A do 


e(A,) € error of A, on D, Íl test and compute error 
: end for 
:D e UL; D 


sarl 
: Poasa D into equal parts {d,, d,, ..., 4] 
: for j= 1 to v do 

: A7 <— n newly trained classifier from data D — d, 

e(A;) €— error of A; on d; // test and compute error 
: end for 

0: A €— best Kv from A" U A based on computed error e(.) 


25.4.2 误差 减少 分 析 


正如 在 算法 1 中 解释 的 ， 我 们 构建 了 Ko 个 分 类 器 的 集合 4， 使 用 集合 中 分 类 器 多 
数 投 票 方法 来 对 测试 实例 x 分 类 。 我 们 使 用 简单 多 数 表 决 方式 而 不 使 用 加 权 多 数 表决 
(人 参见 本 章 参 考 文 献 【WANG03] ) 。 因 为 ， 对 数据 流 来 说 ， 简 单 多 数 表 决 已 经 从 理论 上 
被 证 明 是 最 优选 择 ( 见 本 章 参 考 文 献 [GA007] ) 。 加 权 表 决 在 这 些 情 况 下 可 能 会 出 问 
题 ， 因 为 它 假设 训练 和 测试 数据 的 分 布 是 相同 的 。 然 而 ， 在 数据 流 中 ， 由 于 概念 漂移 ， 
这 个 假设 是 不 成 立 的 。 因 此 简单 多 数 表决 是 一 个 更 好 的 选择 。 我 们 在 实验 中 也 证 明了 这 
一 观点 ， 简 单 多 数 表 决 比 加 权 多 数 表决 的 结果 要 好 。 

我 们 已 经 在 本 章 参考 文献 [MASU11] 中 显示 ,与 单 分 区 单 块 (SPC) 方法 相 比 ， 
EMPC 可 以 进一步 减少 对 概念 漂移 数据 流 进行 分 类 的 预期 误差 ， 单 分 区 单 块 (SPC) JT 
法 仅 使 用 一 个 数据 块 来 训练 单个 分 类 器 ( 即 r =v=1)。 更 直观 地 看 出 ,减少 误差 有 两 

310 


C SS 0 nl O Vu GRO MM 



























































第 25 章 面向 演进 数据 流 的 基于 云 的 恶意 软件 检测 上司 








个 主要 原因 。 第 一 ， 通 过 引入 多 块 概念 ， 增 加 每 个 分 类 器 的 训练 数据 。 较 大 的 训练 数据 
自然 会 导致 更 好 的 训练 模型 ， 从 而 减少 误差 。 第 二 ， 相 对 于 从 训练 数据 中 训练 一 个 模 
型 ， 我 们 把 数据 分 成 "个 分 区 ， 并 且 为 每 个 分 区 训练 一 个 模型 。 这 将 进一步 降低 误差 ， 
因为 "个 分 类 器 集成 整体 误差 的 平均 期 望 理论 上 为 单个 分 类 器 低 L/v. ( 见 本 章 参考 文献 
[TUMFE96] ) 。 因 此 ， 无 论 多 块 还 是 多 分 区 策略 都 有 利于 降低 误差 。 


25.4.3 经 验 性 误差 减少 与 时 间 复 杂 度 


对 于 给 定 的 分 区 大 小 w， 增 加 窗口 大 小 > 只 会 在 一 定 程度 上 减少 误差 。 然 而 ， 增 加 7 
实际 上 损害 了 算法 的 性 能 。 另 外 ，r 的 上 界 取 决 于 球 移 pd 的 大 小 。 我 们 在 本 章 参 考 文献 
[ MASU11] 中 显示 了 v=2 的 相对 误差 ER (Relative Error)， 由 于 7 的 增加 ,pd 具有 不 
同 的 值 。 我 从 图 中 可 以 明显 看 出 ， 降 低 pd 的 值 ， 增 加 >， 可 以 很 大 程度 降低 相对 误差 。 但 
是 ,在 所 有 情况 下 ， 当 超过 一 定 的 冰 值 ，ER 开始 大 于 1。 虽然 不 太 可 能 从 数据 中 确定 pd 
的 准确 值 ， 但 是 我 们 可 以 通过 实验 确定 r 的 最 优 值 。 在 实验 中 ,我 们 发 现 对 于 较 小 块 数 
时 ，r 值 越 高 越 好 ， 反 之 亦 然 。 但是， 最 好 的 性 价 比 权衡 是 r=2 或 +=3。 我 们 在 实验 中 已 
经 使 用 + =2。 同 样 ， 对 于 一 个 固定 值 -:， 可 以 确定 v 的 上 限 。 应 该 注意 的 是 ， 如 果 w 增加， 
运行 时 间 也 随 着 增加 。 在 实验 中 ,我 们 获得 了 最 好 的 性 价 比 权衡 是 在 v=5 时 。 

算法 的 复杂 度 为 0(vn( Ks +f(rs))),n 是 数据 块 的 总 数 ，s 是 每 个 块 的 大 小 , f(z) 
是 在 训练 数据 大 小 为 z 的 情况 下 建立 一 个 分 类 器 所 需要 的 时 间 。w 是 常数 ， 复 杂 度 为 0 
(n(Ks+f(rs)))。 


25.4.4 Hadoop /Map /Reduce 框架 


我 们 使 用 开源 的 Hadoop/ Map/Reduce 框架 来 实现 我 们 的 实验 ( 见 本 章 参 考 文献 
[APAC10] ) 。 在 这 里 我 们 提供 了 Hadoop/Map/Reduce 框架 特征 提取 和 选择 算法 的 一 些 
算法 细节 。Map/Reduce 框架 中 的 Map 函数 将 一 个 键 — 值 对 作为 输入 ， 并 为 每 个 键 - fü 
对 提供 一 列 中 间 键 - 值 对 。 

Map: (MKey x MVal) — (RKey x RVal) * 

所 有 的 Map 任务 都 由 集群 中 的 每 个 节点 并 行 处 理 ， 而 不 与 其 他 节点 共享 数据 。Ha- 
doop 通过 对 共享 公共 中 间 键 ks RKey 的 每 组 中 间 值 VC RVal 进行 分 组 ， 来 核对 Map f£ 
务 的 输出 。 由 此 产生 核对 后 的 (k, V) 作为 输入 传人 Reduce 节点 。 因 此 ，Hadoopy 
Map/ Reduce 框架 中 的 每 个 规约 器 都 会 以 迭代 的 方式 ， 一 次 收 到 Hadoop 发 布 的 多 个 (k, 
V) 对 的 列表 。 所 以 Reduce 可 以 理解 为 具有 签名 功能 。 

Reduce: (RKey x RVal*) *—> Val 

上 面 的 Val 是 Map/Reduce 循环 最 后 结果 的 类 型 。 

在 我 们 的 框架 中 ，Map 键 (MKey) 是 二 进 制 文件 标识 符 〈 例 如 ,文件 名 ) Map 值 
(MVal) 是 以 字 节 为 单位 的 文件 内 容 。Reduce 键 (RKey) 是 nn 元 语法 特征 ， 对 应 的 值 
(RVal) 是 发 现 它们 所 处 位 置 的 文件 实例 的 类 别 标签 。 算 法 2 显示 了 Map 节点 用 于 将 前 
者 映射 到 后 者 的 特征 提取 过 程 。 
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算法 3 的 第 5 ~ 10 行 总 结 了 Map 报告 的 类 别 标签 ， 以 获得 每 个 nn 元 语法 的 正确 和 错 
误 的 实例 计数 。 这 为 第 11 行 计算 每 个 nn 元 语法 的 信息 增益 奠定 了 基础 。 第 12 ~ 16 行使 
用 最 小 堆 数据 结构 h 过滤 除了 被 信息 增益 评估 的 5 个 特征 。 最 终 遇 到 的 所 有 5 个 的 最 佳 
特征 被 第 18 ~ 20 行 返回 。 
因此 Hadoop 系统 中 的 规约 器 q 产生 gS 个 候选 特征 及 其 信息 增益 。 这 些 数 据 流 被 送 
到 第 二 个 规约 器 ， 算 法 3 的 后 半 部 分 进行 了 简单 实现 ， 目 的 是 来 选择 最 好 的 $ 个 特征 。 

算法 2: Map(file_id, bytes) 

输入 : 文件 ， 带 有 字 节 内 容 的 文件 标识 。 

输出 : (e D, XE gi n-gram, / 是 文件 标识 的 标签 


l.Tc— 06 

2. for all n-grams g in bytes do 

3. T — T U 1g, labelof( file id)) Vg. labeloftfil. id) 
Á. end for 

5. for all (g, 7) € T do 

6. print (g, /) 

7. end for 

TUE 3: Reduce, (P) 

输入 : (gD 对 的 F 列 表 , e 是 n-gram, 工 是 类 标签 的 列表 ; 1 是 原始 实例 集合 的 点 大 小 
P 是 正面 实例 总 个 3 

输出 :S 个 (g, 让 对 ， 其 中 i 是 8 的 信息 增益 














T 





















































1. heap 4/* empty min-heap */ 
2. for all (g, L) in F do 
3.1! —0 

4. p — 0 

5. for all / in Z do 

6.7 er +l 

7. if /=+ then 
8.p€—p*1 

9. end if 

10. end for 

11. — G(p sit^, p.t) 

12. if 4. size < S then 

13. A. insert(i,)) 

14. else if (5. root < i) then 
15. h. replace(h. root, Áo) 
16. end if 

17. end for 

18. for all zxo in 4 do 

19. print (g, 7) 

20. end for 
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第 25 章 面向 演进 数据 流 的 基于 云 的 恶意 软件 检测 【〖 司 


25.5 恶意 代码 检测 


25.5.1 简介 


恶意 软件 是 网 络 攻击 的 主要 来 源 。 一 些 恶意 软件 的 种 类 是 纯 静 态 的 ， 每 个 实例 是 传 
播 它 的 精确 副本 。 一 旦 识别 出 单个 实例 ， 这 些 副本 相对 容易 被 检测 和 过 滤 。 然 而 ， 当 前 
恶意 软件 的 一 个 更 明显 的 特征 是 多 态 的 。 多 态 恶 意 软件 在 传播 过 程 中 自我 修改 ， 以 便 每 
个 实例 都 具有 不 同 的 语法 ， 但 却 携带 语义 相同 的 恶意 载荷 。 软 件 杀毒 界 投入 大 量 的 努力 
和 人 力 设计 、 部 署 自动 化 算法 ， 来 检测 特定 的 恶意 软件 实例 和 那些 已 经 被 人 类 专家 确定 并 分 
析 的 多 态 恶意 软件 家 族 。 这 导致 恶意 软件 作者 和 杀毒 专家 之 间 的 竞赛 将 持续 升级 ， 每 个 阵营 
都 试图 发 展 防御 措施 和 对 抗 对 方 最 近 的 进展 。 随 着 恶意 软件 开发 的 不 断 增 加 和 恶意 软件 变种 
的 指数 增长 ， 许 多 人 认为 这 种 竞争 最 终 对 于 防御 者 来 说 是 一 场 失 败 的 战斗 。 

恶意 代码 检测 问题 ， 可 以 建 模 为 无 限 长 和 概念 漂移 数据 流 的 数据 挖掘 问题 。 概 念 漂移 
随 着 多 态 恶 意 软件 变种 而 出 现 ， 攻 击 者 和 防御 者 都 将 引进 新 的 技术 用 于 开展 竞赛 。 这 个 概 
念 的 实用 化 促使 了 我 们 的 流 分 类 技术 的 应 用 ， 从 而 自动 检测 新 的 恶意 可 执行 文件 。 

fii FH] n — grams 进行 特征 提取 涉及 从 给 定 的 数据 集 ( 训练 数 据 ) 中 提取 所 有 可 能 的 
n -grams， 并 且 需 要 挑选 其 中 最 佳 的 n- grams。 每 一 个 这 样 的 n-grams 就 是 一 个 特征 。 
即 ， 一 个 n-grams 是 一 个 n 字 节 序 列 。 在 提取 n-grams 之 前 ， 我 们 进行 预 处 理 ， 将 二 
进 制 可 执行 文件 转换 成 十 六 进 制 文件 。 此 时 ， 粒 度 级 别 是 1 字 节 。 我 们 使 用 UNIX 十 六 
进 制 转换 工具 把 二 进 制 可 读 文 件 转换 成 文本 文件 〈 十 六 进 制 文件 ) ， 其 含有 对 应 每 个 二 
进 制 字 节 的 十 六 进 制 数 。 执 行 此 过 程 来 确保 二 进 制 可 执行 文件 的 安全 和 便捷 的 可 移植 
性 。 在 非 分 布 式 框架 中 ， 特 征 的 提取 过 程 包括 两 个 阶段 (简短 地 说 是 ) : 特征 选择 和 特 
征 提取 。 本 章 介 绍 我 们 这 种 传统 技术 在 云 计 算 中 的 变 体 方式 。 


25.5.2 非 分 布 式 特征 提取 与 选择 


在 非 分 布 式 环境 下 ， 特 征 提取 过 程 如 下 。 用 一 个 n 字 节 的 滑动 窗口 扫描 每 个 十 六 进 
制 文 件 的 内 容 。 每 一 组 出 现在 窗口 中 的 V 字 节 序列 是 一 个 n-grams。 对 每 个 n-grams， 
当 g 出 现时 ， 我 们 统计 到 文件 实例 的 总 数 tg 中 ， 当 出 现 总 数 pe Sig 时 就 呈现 为 正 值 
(例如 恶意 可 执行 文件 ) 。 

这 涉及 维护 到 目前 为 止 遇 到 的 所 有 n — grams 的 哈 希 表 T。 如 果 在 T 中 没有 找到 g, 
则 根据 当前 文件 是 否 具有 人 负 或 正 类 标签 ,将 g METH, 其 中 tg = 1 和 pge 10, 1}. 
WA g 已 经 存在 于 T 中 ,ig 要 递增 并 日 pg 根据 文件 的 标签 也 有 条 件 地 递增 。 当 扫描 完 
所 有 的 十 六 进 制 文件 ,TT 包含 数据 集中 所 有 唯一 的 n-grams， 以 及 它们 在 正 实例 和 总 体 
的 频率 。 

从 对 应 当前 块 的 所 有 文件 中 提取 出 的 n- grams 特征 ， 并 不 总 是 全 部 都 实用 。 指 数 
级 数量 的 这 些 n - grams 可 能 导致 不 可 接受 的 内 存 开销 ， 会 使 训练 过 程 变 慢 ， 或 者 使 分 
类 器 混淆 ,产生 大 量 噪声 、 宛 余 和 不 相关 特征 。 为 了 避免 这 些 陷 阱 ， 候 选 n - grams fT 
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征 必须 根据 一 个 选择 准则 进行 排序 ， 这 样 只 有 最 优 的 n — grams 会 被 选择 。 

我 们 选择 信息 增益 作为 挑选 标准 ， 因 为 在 相关 文献 中 这 是 挑选 特征 最 有 效 的 方法 之 
一 。 信 息 增益 可 以 定义 为 分 类 训练 数据 时 属性 〈 即 特征 ) 的 有 效 性 度量 。 如 果 我 们 棋 
据 属性 值 分 解 训练 数据 ， 分 解 完 成 后 ， 信 息 增 益 测 量 焙 的 期 望 减少 。 训 练 数 据 中 属性 的 
RORE, kN PEGE AT ot BG 

我 们 在 本 章 参考 文献 [ MASU11] 中 已 经 说 明 ， 当 新 的 特征 被 考虑 时 ， 它 们 的 信息 
增益 会 和 堆 的 根 对 比 。 如 果 新 特征 的 信息 增益 比 根 多 ， 这 个 根 就 被 去 除 ， 并 且 新 的 特征 
将 加 入 堆 中 ， 否 则 ， 去 除 新 的 特征 ， 特 征 选择 继续 进行 。 


25. 5.3 分布 式 特 征 提取 与 选择 


这 里 会 存在 与 刚才 描述 的 非 分 布 特征 提取 和 选择 方法 有 关 的 几 个 缺陷 。 

Bl 提取 的 n-grams 特征 的 总 数 可 能 会 非常 大 。 例 如 ， 一 个 数据 块 中 的 4 - grams 个 
数 大 概 是 2 亿 。 在 主 内 存 中 存储 它们 几乎 是 不 可 能 的 。 一 个 显而易见 的 解决 方案 是 把 它 
们 存储 在 一 个 硬盘 文件 中 ， 但 这 会 导致 无 法 接受 磁盘 读 写 操作 的 开销 成 本 。 

Bl 如 果 冲 突 特 征 在 喻 希 表 T 中 不 排序 ， 每 个 被 扫描 过 的 n-grams 在 特征 提取 时 均 
需要 被 线性 搜索 ,来 确定 是 否 存 在 于 哈 希 表 T 中。 如 果 它 们 已 经 被 归 类 ， 那 么 插入 时 需 
要 线性 扫描 。 在 任 一 情况 下 ， 提 取 所 有 n-grams 的 最 长 时 间 是 每 个 块 中 n-grams 总 数 
N 的 二 次 方 ， 当 N=108 时 所 花费 的 时 间 是 不 切实 际 的 。 同 样 ， 非 分 布 式 特征 选择 过 程 
需要 每 个 块 中 的 一 种 n - grams。 在 一 般 情 况 下 ， 这 需要 花费 时 间 复 杂 度 为 O0 (N log 
N) ， 当 NN 很 大 时 ， 时 间 开 销 是 不 切实 际 的 。 

为 了 高 效 快捷 地 解决 非 分 布 式 特征 提取 与 选择 的 缺点 ， 我 们 利用 云 计算 的 力量 。 利 
用 Hadoop/Map/Reduce 框架 并 行 处 理 特征 提取 、n — grams 排序 与 特征 选择 。 

Map/Reduce ( 见 本 章 参 考 文献 [ DEANOS ] ) 是 云 计算 环境 中 一 种 日 趋 流行 的 分 布 
式 编 程 范例 。 该 模型 能 并 行 处 理 大 型 数据 集 ， 以 多 种 方式 将 工作 负载 分 布 在 许多 节点 
(机 器 ) 上 ， 主 要 关注 的 是 简化 大 型 数据 集 使 用 廉价 集群 计算 机 的 过 程 。 另 一 个 目标 是 
易于 使 用 的 负载 平衡 和 容错 能 

Map/Reduce 以 它 的 两 个 主要 功能 命名 。Map 功能 将 任务 分 解 成 子 任务 ， 并 分 配 到 
可 用 节点 上 。 而 它 的 第 二 个 功能 Reduce， 则 是 聚集 已 经 完成 子 任务 的 结果 。 我 们 今后 
将 执行 这 些 功 能 的 节点 分 别称 为 映射 器 和 规约 器 ，Map/Reduce Xt n — gram 特征 提取 和 
选择 的 过 程 将 在 附录 中 给 出 解释 ， 在 本 节 中 ,我 们 给 出 这 种 方法 的 更 详细 的 概述 。 
用 于 提取 n-grams 每 个 训练 块 包含 N 个 训练 文件 。 这 些 训练 文件 首先 根据 HDFS 
(图 25.3， 步 又 1) DEE m AEA (HA) TAA m 根据 系统 适用 性 由 HDFS 选 
择 。 每 个 节点 然后 独立 地 从 节点 的 训练 文件 子 集中 提取 n-grams， 训练 文件 使 用 技术 
( 见 本 章 参考 文献 [ MASU11]) (4125.3, 2982) 提供 给 节点 。 当 所 有 节点 完成 其 作 
业 时 ,将 从 每 个 节点 中 提取 的 n-grams 进行 整理 (图 25.3， 步 又 3) 。 

PON, 假设 节点 1 在 一 个 正 实例 下 观察 到 n - grams abc ( 即 ， 恶意 训练 文件 ) ， 而 
节点 2 在 负 ( 即 良性 的 ) 实例 中 也 观察 到 它 。 在 图 25.3 中 ， 节 点 1、2 上 分 别 标记 几 对 
abe, +M abc, -, n- grams AGH, BEIF n- grams 实例 的 标签 被 聚合 。 因 此 ， 
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abe MAME abe, + - o AAW n- grams 被 分 配 到 q 个 规约 器 (9 基于 系统 适 
用 性 由 HDFS 选择 ) , AT MUR, E GT AR hs EAR GS ET A TES TE n- 
grams 的 abe 例子 中 ， 我 们 得 到 标签 是 p=1 Fr, =2。 规 约 器 使 用 这 些 标签 从 提供 给 
节点 (图 25.3， 步 又 5) WRA n - grams 的 子 集 中 选择 最 住 的 5S 个 n-grams。 这 样 就 
可 以 使 用 一 个 大 小 为 5 的 最 小 堆 来 有 效 完 成 。 这 个 过 程 需要 的 时 间 复 杂 度 为 0 (W log 
S) ， 歼 是 提供 给 每 个 规约 器 对 =- grams 的 总 数 。 相 反 ， 非 分 布 式 版 本 需要 的 时 间 复 杂 度 
HO (Wlog W), But, Mg 个 规约 器 节点 中 ， 我 们 就 可 以 获取 gS T n - grams, AWE 
述 过 程 ， 我 们 再 次 通过 运行 另 一 轮 Map/Reduce 循环 选择 最 佳 SA n - grams, 这 一 循环 
中 映射 阶段 为 空 ， 但 是 规约 阶段 仅 使 用 一 个 节点 就 可 以 执行 特征 选择 (图 25.3， 步 又 
6) 。 特 征集 中 的 每 个 特征 是 二 进 制 ， 如 果 在 给 定 实例 中 ， 它 的 值 就 为 1 ( 即 可 执行 文 
fF) 否则 为 0。 对 于 每 个 训练 或 者 测试 实例 ， 我 们 要 计算 特征 向 量 ， 其 中 的 每 一 个 位 由 
对 应 特征 集 的 特征 值 构成 。 这 些 特征 问 量 被 分 类 器 用 来 训练 和 测试 。 
































































































































Hii 
(NW 个 可 执行 文件 ) 转自 映射 器 
p We 步骤 4HDFS 在 9 个 节点 中 | 
s - 映射 器 | | mes om 规约 器 
= 步骤 5 基于 信息 增益 选择 
' Ea 
| (abc +), (abc, —). 带 有 实例 标 (def, 5, | í T S n-grams S n-grams ' 
(def, (mnp, -) 签 的 n-grams k +) | - 
l l i | | i | 单个 规约 器 
- » v 
C mi. | PREFERIS en -grams 中 选取 最 佳 | 
“sees ti | 的 S 个 n-grams， 并 生成 特征 向 量 














Gnnp, —), (ijk, +), 


v 
转 规约 器 


图 25.3 分 布 式 特征 提取 和 选择 


25.6 实验 




















我 们 基于 合成 数据 、 可 控 环 境 下 的 僵尸 网 络 和 恶意 软件 数据 集 评估 我 们 的 方法 ， 并 
把 实验 结果 与 几 种 基线 方法 相 比较 。 


25.6.1 数据 集 


25.6.1.1 合成 数据 集 

为 了 产生 概念 偏 移 的 合成 数据 ,我 们 使 用 由 Y^ wx, = a, 给 定 〈 见 本 章 参考 文献 
[WANG03] ) 移动 的 一 个 超 平面 。 如 果 Y au, <a, ， 则 这 个 示例 是 负 的 ， 和 否则 是 正 
的 。 每 个 示例 是 一 个 随机 生成 的 a 维 向 量 jx ,xx € [0, 1], 87 fa,,--,a,} 也 
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是 在 [0, 1] 之 间 随 机 初始 化 的 真实 数据 , a, 的 值 可 以 被 调整 ， 以 便 产 生 相同 数量 数据 
的 正和 负 示 例 。 这 可 以 通过 选择 a。= (1/2) 对 ”a 来 完成 。 在 我 们 的 实验 中 p =5n 时 ， 
通过 切换 示例 标签 的 百分比 来 引入 随机 干扰 。 有 许多 参数 可 以 模拟 概念 偏 移 。 这 里 ， 使 
用 本 章 参 考 文献 [ WANG03] 中 相同 的 参数 。 总 的 来 说 ,我们 产生 的 25 万 个 记录 和 4 
个 不 同 的 数据 集 包 含 块 的 大 小 分 别 为 : 250, 500, 750 和 1000。 每 个 数据 集 含有 各 50% 
的 正 实例 和 负 实 例 。 

25.6.1.2 僵尸 网 络 数据 集 

僵尸 网 络 由 互联 网 中 被 攻破 的 主机 组 成 ， 所 以 控制 权 在 人 类 攻击 者 之 中 ， 攻 击 者 被 
KEP ERE ( 见 本 章 参 考 文献 [BARF06] ) 。 僵 尸 主 控 者 发 出 命令 ， 僵 尸 机 器 执行 
恶意 行为 ， 比 如 发 起 DDoS 攻击、 垃圾 邮件 、 间 谍 操 作 等 。 僵 尸 网 络 成 为 目前 互联 网 发 
展 的 严重 威胁 。 随 着 僵尸 网 络 拓扑 结构 演变 ， 许 多 前 沿 僵尸 网 络 使 用 对 等 (Peer -to - 
Peer, P2P) 技术 来 进行 可 靠 和 隐藏 的 通信 。 这 些 僵尸 网 络 是 分 布 式 和 小 型 的 ， 使 得 它 
们 更 难以 被 检测 和 销毁 。P2P 僵尸 网 络 的 例子 包括 Nugache ( 见 本 章 参 考 文献 
[ LEMO06]) Sinit 〈( 见 本 章 参考 文献 [ STEWO3 ] ) 和 Trojan. Peacomm ( 见 本 章 参 考 文 
HK [GRIZO7]), 

僵尸 网 络 流量 可 以 看 成 具有 无 限 长 和 概念 偏 移 的 数据 流 。 概 念 偏 移 发 生 在 机 器 执行 
新 的 恶意 任务 时 ， 或 者 采用 不 同 的 沟通 策略 ， 以 响应 新 的 主 控 机 者 指令 。 因 此 我 们 认为 
数据 流 分 类 技术 非常 适合 检测 PAP 僵尸 网 络 流量 。 

我 们 在 可 控 环 境 下 使 用 P2P Nugache 僵尸 主机 ( 见 本 章 参考 文献 [ LEMO06]) 来 
产生 真实 P2P 僵尸 网 络 流 量 。 特 征 提取 过 程 的 细节 在 Masud 等 人 的 文章 ( 见 本 章 参 考 
文献 [MASUO8b]) 中 讨论 。 一 共有 81 个 连续 属性 ， 整 个 数据 集 包 含 3 万 个 记录 ， 代 
表 了 一 个 星期 的 网 络 流量 。 我 们 产生 4 个 不 同 的 数据 集 ， 包 含 的 数据 块 大 小 分 别 为 30、 
60, 90 和 120 分 钟 。 每 个 数据 集 还 有 25% 的 正 实例 (僵尸 网 络 流量 ) 和 75% 的 负 实 例 
(良性 流量 ) 。 
25.6.1.3 恶意 软件 数据 集 

我 们 从 不 同 的 Windows 计算 机 中 提取 一 共 38694 个 良性 可 执行 文件 ， 并 从 在 线 恶 意 
软件 仓库 VX Heavens ( 见 本 章 参 考 文献 [VX10] ) 中 收集 到 的 66694 个 恶意 可 执行 文 
件 ， 其 中 包含 大 量 的 恶性 可 执行 文件 (病毒 、 蠕 虫 、 木 马 、 后 门 ) 。 腿 性 的 可 执行 文件 
包括 在 Windows 安装 文件 夹 中 发 现 的 各 种 应 用 程序 ， 以 及 默认 程序 安装 目录 中 的 其 他 可 
执行 文件 。 

在 这 两 种 情况 下 ， 我 们 只 选择 Win32 的 可 移植 的 可 执行 文件 (Portable Executables , 
PE), EH ELF 可 执行 程序 进行 实验 是 今后 工作 的 一 个 潜在 方向 。 收 集 的 105388 个 文 
ft (良性 和 恶意 ) 形成 了 130 个 块 的 数据 流 ， 每 个 数据 流 包含 2000 个 实例 (可 执行 的 
小 程序 ) 。 通 过 对 恶意 软件 的 版 本 和 发 现 日 期 进行 排序 ， 模 拟 网 络 恶 意 软件 的 演变 性 。 
每 个 块 有 1500 个 良性 可 执行 文件 (7596 为 负数 ) 和 500 个 恶意 可 执行 文件 (25% 为 
正 )。 关 于 其 中 的 特征 提取 和 选择 过 程 ， 在 本 章 以 前 的 部 分 已 经 描述 过 。 

应 注意 到 所 有 这 些 数据 集 在 本 质 上 都 是 动态 的 。 它 们 无 界限 限制 (可 能 无 限 长 ) 使 
得 它们 超出 了 纯粹 静态 分 类 框架 的 范围 。 男 外 ,合成 的 数据 也 表现 出 概念 偏 移 。 虽然 很 难 
准确 判断 数据 集中 是 否 还 有 概念 偏 移 ， 经 过 长 时 间 观 察 ， 理 论 上 可 执行 文件 的 数据 流 会 
概念 偏 移 。 在 每 个 块 中 识别 的 不 同 特征 集 ， 可 以 证 明 恶 意 软件 数据 能 够 揭示 特征 演变 。 
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25.6.2 基线 方法 

为 了 分 类 ， 我 们 使 用 Weka 机 器 学 习 开 源 包 ( 见 本 章 参 考 文献 [HALL09])。 我 们 
使 用 两 种 不 同 的 分 类 器 : J48 决策 树 和 Ripper。 然 后 ， 我 们 将 下 面 的 每 个 基线 技术 与 我 
们 的 EMPC 算法 进行 比较 。 

BestK。 这 是 一 个 SPC 集成 方法 ， 它 使 用 一 组 最 佳 天 个 分 类 器 。 通 过 存储 所 有 已 知 
的 分 类 器 ， 在 最 近 训练 数据 块 上 根据 期 望 误差 来 挑选 最 佳 玉 个 分 类 器 。 对 于 实例 ， 使 
用 简单 多 数 表决 方式 来 测试 。 

Last。 这 种 情况 下 ， 我 们 只 保留 在 最 近 训 练 块 上 训练 的 分 类 器 ， 这 可 以 认为 是 一 个 
Kz1 情况 下 的 SPC 方法 。 

AWE。 这 是 使 用 精度 加 权 分 类 器 集成 ,来 实现 SPC 的 方法 ( 见 本 章 参 考 文献 
[ WANG03 ] ) 。 它 建立 一 个 天 个 模型 集合 ， 每 个 模型 从 一 个 数据 块 中 被 训练 。 集 合 更 新 
WF, EH Cn 表示 最 近 训 练 数 据 块 上 的 分 类 器 ， 从 已 存在 的 天 个 模型 和 最 新 模型 Cn 
中 ， 基 于 在 最 近 数 据 块 上 的 误差 挑选 最 佳 K 个 模型 。 挑 选 时 基于 加 权 投 票 ， 每 个 模型 
的 权重 和 在 最 近 训 练 块 上 模型 得 到 的 误差 成 反比 。 

ALL, SPC 使 用 所 有 已 知 的 分 类 器 进行 集成 。 新 的 数据 块 使 用 该 集成 ,通过 简单 表 
决 方式 来 测试 。 既 然 这 是 一 个 SPC 方法 ， 每 个 分 类 器 就 只 被 一 个 数据 块 训练 。 

对 于 大 多 数 数据 集 ， 我 们 获得 + 和 w 的 最 佳 值 分 别 是 2 ~3 之 间 和 3 ~5 之 间 。 除 非 
有 其 他 情况 ， 在 我 们 的 实验 中 使 用 + =2 和 w=5。 为 了 获得 相对 公平 的 比较 ,我 们 在 
EMPC 和 所 有 基线 技术 中 均 使 用 了 相同 的 K (集合 大 小 ) fü. 
25. 6. 2.1 Hadoop 分 布 式 系统 配置 

我 们 进行 实验 的 分 布 式 系统 由 一 个 10 个 节点 的 集群 组 成 。 每 个 节点 都 由 相同 的 硬 
件 组 成 : Intel Pentium IV 2. 8GHz 处 理 器 、4GB 的 主 内 存 和 640GB 的 硬盘 空间 。 其 软件 
环境 包括 一 个 Ubuntu 9. 10 操作 系统 、 Hadoop - 0.20.1 分 布 式 计算 平台 、JDK 1.6 Java 
开发 平台 ,以 及 100Mbit/s 的 LAN, 





















































































































































25.7 讨论 





我 们 的 工作 考虑 了 一 个 由 纯 语 法 特征 组 成 的 特性 空间 : 包括 从 可 执行 代码 段 获取 的 

二 进 制 n - grams 、 静 态 数据 段 、 首 部 和 不 可 信 文 件 的 所 有 其 他 内 容 等 。 高 级 的 结构 特 
性 ， 比 如 Calland 控制 流 图 ;动态 特性 ， 比 如 运行 时 跟踪 ， 超 出 了 我 们 目前 研究 的 范围 。 
然而 ， 正 如 以 前 的 大 量 工作 还 有 我 们 的 实验 所 证 明 的 那样 ， 大 家 已 经 观察 到 n — grams 
特征 对 于 恶意 软件 检测 具有 非常 高 的 辨别 力 。 这 其 中 部 分 是 因为 n - grams 集 包 含 了 整 
个 二 进 制 内 容 ， 包 括 头 和 数据 表 ， 还 捕获 了 一 些 重要 的 底层 结构 细节 ， 这 些 细节 常常 被 
高 层次 抽象 的 概念 表示 出 来 。 例 如 ， 恶 意 软 件 通 常 包含 已 汇编 和 使 用 非 标准 工具 链接 的 
手工 汇编 代码 。 这 将 允许 攻击 者 实现 二 进 制 的 混淆 和 低级 别 的 使 用 ， 而 不 是 来 自 更 高 级 
别 的 源 语言 和 标准 编译 器 。 带 来 的 结果 就 是 ， 恶 意 软件 经 常 包含 特殊 指令 的 编码 结构 、 
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标题 结构 ， 和 只 能 被 以 二 进 制 形 式 看 到 的 异常 的 链接 表 ， 这 些 指 令 不 在 汇编 代码 列表 
中 ， 而 在 控制 流程 图 或 系统 AP 调用 痕迹 中 。 如 果 扩 展 特 征 空间 来 包含 这 些 额 外 的 更 高 
等 级 的 特征 ， 需 要 一 个 高 效 和 可 靠 的 方法 在 特征 选择 时 获取 和 评估 他 们 相关 鉴别 能 
这 将 作为 未 来 工作 的 主题 。 

报告 本 章 参 考 文献 [MASUIL] 中 报道 的 实证 结果 证 实 了 我 们 的 分 析 : 多 分 区 、 多 
块 方法 比 单 分 区 、 单 分 块 方法 表现 得 更 好 。 直 观 地 来 说 ， 一 个 分 类 器 在 多 块 上 的 预测 准 
确 度 要 比 在 单 分 块 上 训练 得 要 好 ， 因 为 训练 数据 更 大 。 此 外 ， 如 果 集 成 分 类 器 被 多 分 区 
训练 数据 所 训练 ， 预 测 准 确 度 应 该 比 单个 分 类 器 在 同样 的 训练 数据 上 的 要 好 ， 因 为 集成 
分 类 器 的 降低 误差 能 力 要 比 单个 分 类 器 高 。 此 外 ，EMPC 的 精度 优势 可 以 追溯 到 两 个 重 
要 的 差异 ， 这 两 个 差异 存在 于 我 们 的 工作 和 AWE 之 间 。 第 一 ， 在 AWE 中 ， 当 一 个 分 
类 器 在 集成 更 新 中 被 移 除 时 ， 所 有 从 相关 块 中 获得 的 信息 被 遗弃 。 但 是 在 EMPC 中 ， 一 
个 或 更 多 早期 块 的 分 类 器 可 能 会 存活 下 来 。 因 此 ，EMPC 集成 更 新 比 AWE 趋 于 保留 更 
多 的 信息 ， 从 而 生成 更 好 的 集合 。 第 二 ，AWE 需要 至 少 Ko 个 数据 块 ， 而 EMPC 需要 至 
少 K+r-1l 个 数据 块 来 得 到 Ko 分 类 器 。 因 此 ， 与 EMPC 相 比 ，AWE 倾向 于 保留 更 过 时 
的 分 类 器 ， 这 导致 一 些 过 时 的 分 类 器 对 分 类 准确 度 产 生 负 面 影响 。 

但 是 ， 得 到 更 高 准确 度 的 同时 会 带 来 更 高 的 运行 时 间 成 本 。 理 论 上 ，EMPC 最 多 比 
AWE 慢 ww 时间， 而 在 精度 上 却 较为 接近 。 这 在 实验 评估 上 也 是 显而易见 的 ， 它 显示 
EMPC 的 运行 时 间 是 AWE 的 5 倍 之 内 (r=2, v=5)。 但 是 ， 可 以 采取 一 些 优化 措施 来 
降低 运行 时 间 损 耗 。 首 先 ， 可 以 很 容易 地 实现 对 每 个 分 区 训练 的 并 行 化 ， 通 过 因子 "来 
减少 训练 时 间 。 第 二 ， 在 整体 中 每 个 模型 的 分 类 器 也 可 以 并 行进 行 ， 从 而 通过 因子 Kv 
减少 了 分 类 时 间 。 因 此 ， 至 少 通过 因子 v 使 训练 和 分 类 的 并 行 化 来 减少 运行 时 间 ， 这 使 
得 时 间 花 费 和 AWE 接近 。 或 者 ， 如 果 并 行 化 是 不 可 用 的 ， 则 可 以 将 参数 和 > 降低 到 
牺牲 预测 精度 ， 以 降低 运行 时 间 成 本 。 在 这 种 情况 下 ， 获 取 运 行 时 间 和 预测 准确 度 之 间 
的 期 望 的 平衡 ， 就 要 评估 数据 流 最 开始 的 几 个 块 所 使 用 的 不 同 的 v 和 7 值 ， 并 选择 最 合 
适 的 值 。 










































































































































































25.8 ”总结 和 展望 


许多 入 侵 检测 问题 可 以 被 归 类 为 无 限 长 、 概 念 漂移 数据 流 的 分 类 问题 。 概 念 漂移 往 
往 出 现在 攻击 者 回应 和 采取 防御 时 的 数据 流 中 。 我 们 明确 阐述 了 恶意 代码 检测 和 僵尸 网 
络 流量 检测 等 问题 ， 并 引入 了 EMPC。 它 是 一 种 全 新 的 集成 学 习 技术 ， 用 于 无 限 长 度 、 
概念 漂移 数据 流 的 自动 分 类 。 通 过 应 用 EMPC 方法 ， 我 们 从 动态 恶意 软件 和 僵尸 网 络 流 
量 样本 中 ， 获 得 的 真实 数据 流 比 其 他 数据 流 分 类 技术 拥有 更 好 的 检测 准确 度 。 表 明 这 种 
方法 对 于 入 侵 检 测 和 一 般 数据 流 分 类 是 有 用 和 高 效 的 。 

EMPC 使 用 广义 的 、 多 分 区 、 多 块 集成 学 习 技 术 。 理 论 和 实验 评估 显示 ， 这 项 技术 与 
已 知 的 单 分 区 、 单 块 集成 方法 相 比 ， 可 以 显著 减低 期 望 分 类 误差 。 此 外 ， 我 们 还 表明 ， 在 
基于 Map/Reduce 的 云 计算 框架 中 ( 见 本 章 参 考 文献 [DEAN08]), EMPC 可 以 很 好 地 实 
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， 其 结果 是 一 个 低 成 本 、 可 伸缩 的 流 分 类 框架 ， 具 有 较 高 的 分 类 精度 和 低 运 行 开销 。 
我 们 在 未 来 的 工作 方向 上 ， 至 少 有 两 个 技术 扩展 可 以 去 做 。 第 一 ， 我 们 在 目前 的 特 
征 选 择 程序 集中 在 基于 信息 增益 的 最 优 S 特征 ， 并 以 此 作为 选择 标准 。 通 过 利用 


近年 来 


的 监督 维 数 减少 技术 〈 见 本 章 参 考 文献 [RISHO8] [SAJA05]) 改进 特征 选择 ， 可 以 
提高 分 类 精度 。 第 二 ， 我 们 方法 的 运行 时 间 可 以 通过 利用 额外 的 云 计算 并 行 架 构 来 改 



































善 。 比 如 ， 一 个 集成 的 分 类 需 可 以 作为 MapReduce 框架 中 的 映射 器 并 行 运行 ， 而 规约 妖 


收集 的 结果 用 来 进行 投票 。 类 似 地 ， 下 一 个 整合 的 候选 分 类 器 可 以 同时 进行 训练 和 评 








估 。 按 照 此 方法 重新 构造 系统 的 集成 组 件 ， 可 以 很 大 程度 缩短 处 理 时 间 ， 因 此 ， 
将 更 多 的 处 理 时 间 用 于 分 类 以 便 提 高 准确 性 。 
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526m 用 于 内 部 威胁 检测 
的 基于 云 计 算 的 数据 挖 气 


26.1 概述 


对 内 部 威胁 的 有 效 检 测 ， 需 要 比 外 部 威胁 的 检测 要 有 更 精细 的 监视 机 制 。 这 些 监 视 


器 必须 有 效 和 可 靠 的 部 署 在 软件 环境 中 ， 并 能 够 及 时 提 


常 包含 用 户 级 别 的 应 用 程序 ， 比 如 文字 处 到 
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此 类 程序 来 说 通过 传统 的 方法 来 进行 可 靠 的 监视 内 部 活动 是 困难 的 。 
为 了 监视 内 部 活动 ， 监 视 工具 需要 捕获 这 些 内 部 软件 之 间 的 通信 和 关系 ， 并 存储 、 


















































查询 这 些 关系 ， 并 且 最 终 通 过 分 析 这 些 关系 来 提取 关系 模式 ， 使 得 分 析 师 可 以 更 好 地 洞 
察 潜在 的 威胁 。 随 着 时 间 的 推移 ， 内 部 程序 之 间 的 通信 与 关系 的 数量 可 以 达到 数 十 亿 。 
































和 分 析 ， 并 以 此 来 检测 恶意 内 部 威胁 程序 。 





在 本 章 中 ， 我 们 将 讨论 数据 挖掘 技 术 如 何在 云 计 算 环 境 下 ， 被 运 


检测 中 。 首 先 ， 我 们 将 讨论 语义 Web 技 
术 如 何 被 运用 到 表示 内 部 程序 之 间 的 通 
信 。 其 次 ， 将 讨论 我 们 的 内 部 程序 检测 
方法 。 最 终 ， 提 供 一 个 我 们 内 部 威胁 检 
测 框架 的 概述 ， 也 包含 一 些 其 他 技术 。 

本 章 结 构 如 下 。26.2 节 ， 我们 将 讨 
论 面临 的 挑战 、 相 关 工 作 ， 以 及 对 与 此 






































p 





使 用 我 们 项 目 中 开发 的 工具 ， 可 以 使 得 数 十 亿 内 部 程序 之 间 的 关系 被 提 
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问题 我 们 的 解决 方法 。 我 们 的 方法 将 在 
26.3 节 中 详细 讨论 。 我 们 的 框架 将 在 
26.4 节 讨 论 。 本 章 总 结 将 在 26.5 7, Al 
26.1 说 明了 本 章 包含 的 内 容 。 








图 26.1 用 于 内 部 威胁 检测 的 基于 











云 计算 的 数据 挖掘 技术 


26.2 ” 挑战、 相关 工作 和 我 们 的 方法 


内 部 程序 和 内 部 程序 之 间 的 关系 如 同 图 形 中 的 节点 和 链接 。 因 此 ， 面 临 的 难点 是 在 


























图 形 中 表示 信息 ， 制 定 有 效 的 存储 策略 ， 开 发 查询 处 到 








图 形 的 技术 ， 并 随后 开发 从 图 





中 提取 信息 的 数据 挖掘 和 分 析 技 术 。 特 别 的 是 ， 有 三 大 挑战 : 
1) 以 一 种 具有 表达 性 和 统一 的 方式 ， 把 这 些 大 型 图 形 存储 在 辅助 存储 器 中 。 
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2) 设计 可 扩展 的 解决 方案 ， 查 询 这 些 大 型 图 形 并 发 现 相关 数据 。 

3) 识别 复杂 图 形 中 的 相关 特征 ， 并 在 动态 环境 中 检测 随时 间 变 化 的 内 部 程序 
威胁 。 

这 个 方法 的 动机 是 解决 之 前 提出 的 三 个 挑战 我们 基于 云 计 算 开 发 了 解决 方案 ，Q 
描述 包含 数 十 亿 节 点 和 节点 之 间 的 边 ， 所 代表 的 活动 (例如 ， 信 用 卡 交 易 、 电 子 邮件 
或 者 短信 )。 由 于 图 形 是 巨大 的 ， 我们 将 开发 高 效 和 持久 的 存储 技术 。@ 为 了 方便 新 型 
异常 检测 ， 我 们 需要 一 个 高 效 的 接口 ， 及 时 从 这 种 持久 存储 中 提取 相关 数据 。 因 此 ， 我 
们 将 在 存储 的 图 形 中 开发 有 效 的 查询 技术 。@ 所 提取 的 相关 数据 可 用 于 进一步 分 析 ， 以 
检测 异常 。 为 此 ， 首 先 ， 我们 必须 从 复杂 图 形 中 识别 相关 的 特征 ， 然 后 开发 挖掘 大 型 图 
形 ， 以 提取 挖掘 的 技术 。 

正如 第 一 章 所 述 ， 内 部 威胁 检测 是 一 个 困难 的 问题 ( 见 本 章 参 考 文献 
[ MAYBOS ] ) 。 随 着 越 来 越 多 来 自 不 同 来 源 和 传感器 的 数据 ， 这 个 问题 就 变 得 越 来 越 复 
杂 。 最 近 有 一 些 研究 工作 重点 关注 根据 图 表 进 行 基于 异常 的 内 部 威胁 检测 ( 见 本 章 参 
考 文献 [EBER09])。 这 种 方法 基于 最 小 描述 长 度 准则 (Minimum Description Length, 
MDL) 。 在 本 章 参考 文献 [EBER09 |] 的 讨论 中 ， 指 出 它 具 有 一 些 局 限 性 。 首 先 ， 对 于 
这 个 方法 ， 扩 展 性 是 一 个 问题 。 换 名 话说 ， 他 们 没有 讨论 任何 关于 大 图 形 的 问题 。 其 
次 ， 异 质 性 的 问题 没有 得 到 解决 。 最 后 ， 目 前 还 不 清楚 他 们 的 算法 如 何 处 理 随时 间 变 化 
的 动态 环境 。 

如 今 已 经 开发 了 几 种 图 形 按 气 技术， 尤其 对 社会 网 络 分析 ( 见 本 章 参 考 文献 
[COOK06] [TONG09], [CARMO9] 和 [THUR09])。 但 这 些 技术 的 可 扩展 性 始终 是 
一 个 问题 。 一 些 从 事 数学 研究 的 社团 ， 他 们 的 工作 是 应 用 线性 规划 技术 来 进行 图 形 分 析 
( 见 本 章 参 考 文献 [ BERRO7 ] ) 。 这 些 技 术 是 否 对 真实 环境 有 效 还 是 不 清楚 的 。 

对 于 一 个 可 行 的 解决 方案 ， 必 须 具 有 高 度 可 扩展 性 ， 并 且 文 持 多 异 构 数 据 源 。 目 前 
先进 的 解决 方案 扩展 性 并 不 好 ， 且 准确 度 也 不 高 。 通 过 利用 Hadoop 技术 ， 我 们 的 方法 
将 是 高 度 可 扩展 的 。 此 外 ， 利 用 灵活 的 Web 语义 RDF 数据 模型 ， 我 们 可 以 轻易 地 整合 
排列 异 构 数据 。 因 此 ， 我 们 的 方法 将 创建 一 个 在 动态 环境 中 可 扩展 的 解决 方案 。 目 前 还 
没有 现存 的 威胁 检测 工具 提供 这 种 级 别 的 可 扩展 性 和 互 操作 性 。 我 们 将 使 用 数据 挖掘 技 
术 及 结合 相关 技术 ， 来 创建 一 个 完整 的 内 部 威胁 检测 解决 方案 。 

我 们 已 经 开发 了 基于 Hadoop/Map/Reduce 技术 的 云 计算 架构 。 内 部 程序 与 它们 之 间 
的 联系 是 通过 图 的 节点 和 连接 来 表示 。 特 别 的 ， 在 我 们 的 方法 中 ， 数 十 亿 的 节点 和 连接 
通过 RDF 图 表示 。 通 过 利用 RDF 表示 ， 我 们 将 解决 异 质 性 问题 。 我 们 将 开发 存储 RDF 
图 的 有 效 机 制 ， 使 用 SPARL 技术 查询 图 ， 并 且 在 云 计算 框架 中 挖掘 图 ， 以 提取 相关 
模式 。 


26.3 用 于 内 部 威胁 检测 的 数据 挖掘 






























































































































































































































































26.3.1 我 们 的 解决 方案 的 体系 结构 


图 26. 2 显示 了 我 们 解决 方案 的 体系 结构 。 我 们 的 解决 方案 将 从 多 个 数据 源 收 集 数 
323 








(D 三 计算 开发 与 安全 
L 





据 ， 然 后 提取 和 选择 特征 。 在 对 特征 降 维 后 ， 数 据 存储 在 我 们 的 硬盘 存储 库 中 。 数 据 以 
RDF 格式 存储 。 因 此 ， 如 果 数 据 是 以 其 他 格式 存在 则 需要 进行 格式 转换 。RDF 是 Web 
语义 的 数据 格式 并 且 表示 图 形 数据 是 有 力 的 。 异 常 预测 组 件 将 提交 SPARQL 到 库 中 挑选 
数据 ， 然 后 输出 检测 到 的 任何 内 部 威胁 。SPARQL 是 针对 RDF 数据 的 查询 语言 ， 它 在 语 
法 上 与 SQL 相似 。 每 个 组 成 部 分 的 详细 情况 将 在 接 下 来 的 章节 中 描述 。 对 于 选择 关系 
数据 模型 图 的 RDF 表示 ， 我 们 的 目的 是 有 效 地 解决 异 质 性 问题 ( 半 结 构 化 数据 模型 ) 。 
对 于 查询 ， 我 们 将 利用 标准 查询 语言 SPARQL。 此 外 ,推理 是 我 们 的 框架 提供 的 一 个 
功能 。 
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图 26.2 解决 方案 的 体系 结构 








我 们 假设 大 图 形 已 经 存在 。 为 了 方便 持久 地 存储 和 有 效 地 检索 这 些 数据 ， 我 们 使 用 
基于 Hadoop 云 计算 框架 ( 见 本 章 参 考 文献 [HADO]) 的 分 布 式 架构 。 通 过 利用 Ha- 
doop 技术 ， 我 们 的 框架 容错 性 和 可 扩展 性 较 强 。 为 了 支持 大 量 数据 ， 我 们 只 需 简 单 地 
在 Hadoop 集群 中 加 入 更 多 的 节点 。 集 群 中 的 所 有 节点 都 是 廉价 的 机 器 ， 没 有 必要 购买 
昂贵 的 服务 器 。 为 了 处 理 大 型 复杂 的 图 形 ， 我 们 利用 HDFS 和 Map/Reduce 框架 。 前 者 
是 将 数据 存储 在 通过 复制 的 多 个 节点 中 的 存储 层 上 。 后 者 是 可 以 运行 Map/Reduce 作业 
的 执行 层 。 我 们 使 用 HDFS 来 存储 RDF 数据 ， 用 Map/Reduce 框架 回应 查询 。 


26.3.2 ”特征 提取 和 紧凑 表示 


在 传统 的 图 形 分 析 中 ， 边 是 一 个 表示 强度 的 简单 数字 。 但 是 ， 我 们 在 表示 连接 值 时 
将 可 能 面临 额外 的 挑战 ， 这 是 由 于 文本 和 电子 邮件 的 内 容 都 是 非 结 构 化 的 。 一 种 可 能 的 
方法 是 将 整个 内 容 作 为 连接 值 的 一 部 分 ,我 们 称 之 为 显 性 内 容 (Explicit Content , EC), 
即使 对 于 中 等 大 小 的 图 ，EC 也 不 好 衡量 。 这 是 因为 为 了 在 内 存 中 处 理 图 形 ， 表 示 两 个 
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节点 之 间 的 连接 内 容 需要 很 大 的 内 存 空间 。 对 于 每 条 消息 ， 我 们 均 使 用 其 内 容 中 的 一 个 
向 量 表 示 (Vector Representation of the Content, VRC), Æ RDF 三 元 组 表示 中 ， 这 将 简 
单 地 表示 为 唯一 的 谓词 。 我 们 可 以 通过 字典 编码 表 中 原始 消息 的 物理 位 置 或 URL， 来 
跟踪 特征 向 量 。 

VRC; 预 处 理 每 个 信息 的 过 程 中 ， 我 们 提取 关键 字 和 短语 (n - gram) 作为 特征 。 
如 果 我 们 生成 这 些 特征 的 向 量 ， 那 么 这 些 向 量 的 维度 会 非常 高 。 这 里 就 是 我 们 观察 到 的 
维度 灾难 〈 即 稀 芍 和 处 理 时 间 将 增加 ) 。 因 此 ， 我 们 可 以 应 用 特征 降 维 和 特征 选择 (HB 
主 成 分 分 析 、 支 持 向 量 机 ) 。 特 征 降 维 承 是 将 高 维特 征 空 间 映 射 到 较 小 的 空间 ， 并 且 新 
特征 维度 可 能 是 旧 维度 的 线性 组 合 ， 这 个 是 很 难 解释 的 ， 因 此 我 们 需要 研究 特征 选择 。 

对 于 特征 选择 ， 我 们 需要 使 用 一 组 类 标签 来 监视 数据 。 在 这 里 ， 对 于 信息 ， 我 们 可 
能 没有 一 个 类 标签 。 但 是 ， 我 们 知道 信息 的 消息 源 /发 送 者 和 目的 地 /接收 者 。 现 在 ， 我 
们 想 用 这 些 知识 来 构造 一 个 人 工 标签 。 发 送 方 和 目的 地 将 形成 一 个 唯一 的 类 标签 ， 而 且 
所 有 从 发 送 方 到 接收 方 的 信息 都 将 作为 数据 点 。 因 此 ， 我 们 的 目标 是 找到 适当 的 特征 ， 
能 基于 这 些 信息 让 这 些 类 标签 有 辨别 力 。 对 于 特征 选择 来 说 有 很 多 方法 ， 它 们 广泛 地 使 
用 在 机 器 学 习 的 领域 ， 比 如 IG ( 见 本 章 参 考 文献 [ MITC97] 、[ MASU10a] 、[MASU10b] ) 、 
Gini 索引 、 卡 方 统计 、 子 空间 聚 类 〈 见 本 章 参考 文献 [ AHME09]) 等 。 在 这 里 我 们 选择 信 
息 增 益 ， 这 在 文本 域 中 非常 流行 ， 选 择 子 空间 聚 类 来 进行 特征 选择 。 

可 以 将 IG 定义 为 对 特征 进行 分 类 训练 数据 的 有 效 性 的 度量 ( 见 本 章 参考 文献 
[MITC97 ] ) 。 如 果 我 们 将 这 些 属性 值 的 训练 数据 分 开 ， 则 TG RS ED T Jes a H1 T5089] 
减少 量 的 测量 。 属 性 可 以 减少 训练 数据 中 的 丧 越 大 ， 分 类 数据 的 属性 越 好 。 实 例 S 的 集 
合 中 的 属性 4 的 IG 由 式 (26.1) 给 出 






















































































































































































|S, 1 
Gain(S,A) = Entropy(S) - © ' —Entropy( S, ) (26.1) 


ve vaesa) | S| 


式 中 , fH (A) 是 属性 4 的 所 有 可 能 值 的 集合 ，$, 是 属性 4 具有 值 v 的 5 的 子 集 。5 的 
Jibi (26.2) 计算 : 

















Entropy(S) =- Y, p, S) logp,CS) (26.2) 


AP, p (S) 是 类 i 在 集合 5 中 的 先 验 概 率 。 
26.3.2.1 子 空间 聚 类 
子 空间 聚 类 可 以 用 来 进行 特征 选择 。 当 聚 类 对 应 的 数据 集 组 成 原始 维度 的 子 集 时 ， 
子 空间 聚 类 是 合适 的 。 在 子 集 形 成 的 基础 上 ， 一 个 子 空间 聚 类 算法 可 以 被 使 用 作为 软 或 
硬 子 空 间 聚 类 。 在 软 子 空间 聚 类 的 情况 下 ， 根 据 每 个 特征 /维度 在 聚 类 的 过 程 中 表现 ， 
对 特征 分 配 权 重 。 然 而 ， 在 硬 子 空间 聚 类 的 情况 下 ， 为 每 个 聚 类 选择 特定 的 特征 子 集 ， 
并 且 为 该 聚 类 丢弃 其 余 的 特征 。 因 此 ， 子 空间 聚 类 可 以 用 来 选择 哪些 特征 比较 重要 
(如 果 它 们 对 所 有 集群 的 权重 较 小 ,那么 就 会 丢弃 一 些 特征 ) 。 一 种 常用 的 软 子 空间 聚 
类 方法 是 SISC ( 见 本 章 参 考 文献 【AHMF09 ] ) 。 这 种 子 空间 聚 类 算法 使 用 了 下 列 目 标 孙 
数 。 一 个 EE-M 公式 用 于 肾 类 。 在 每 次 迭代 中 ， 因 为 要 选择 每 个 聚 类 具有 和 较 高 权重 的 特 
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征 ， 每 个 集群 的 特征 权重 实际 上 都 要 被 更 新 。 我 们 可 以 为 相应 数据 集 选 择 一 组 重要 





k n m k m 
F(W,Z,A) = > Y ALD, O + Im pl) «y DD Ain 
Li l=1 i=l 


特征 。 
这 里 
基于 以 下 条 件 


1=1 j=l 


D, = (2; -x 


dw; s1,1Sj<n1SISkO0Sw <1 


> =1l<i<m<1<k0<A,<1 


ERA Hbi eR 数 中 ， W, Z, A 分 别 表 示 聚 类 成 员 、 聚 类 中 心 和 维度 权重 矩阵。 此 
外 ， 参 数 / 控制 每 个 数据 点 成 员 的 模糊 度 ，4 为 进一步 修改 每 个 聚 类 (A) 的 维度 权 





重 ， 并 且 最 终 由 y fit 

















制 卡 方 分 量 和 维度 权重 的 激励 强度 。 同 时 假设 有 个 文件 在 训练 数 


据 集中 ， 每 个 特征 点 有 普 个 特征 ， 并 且 在 聚 类 过 程 中 有 上 个子 空间 聚 类 产生 。Im pl K 
AR RASA, x 表示 卡 方 统计 。 关 于 这 些 符号 和 聚 类 将 如 何 完 成 的 细节 可 以 在 我 们 之 前 
的 研究 中 找到 ( 见 本 章 参 考 文献 [ AHME09])。 应 该 注意 的 是 ， 使 用 子 空间 上 聚 类 进行 
村 征 选 择 ， 可 以 被 认为 是 一 个 无 监督 的 方法 ， 这 是 由 于 特征 选择 在 一 个 无 监督 聚 类 过 程 
中 不 需要 任何 标签 信息 。 

一 旦 我 们 选择 了 特征 ， 两 个 节点 之 间 的 一 个 消息 ， 就 会 用 这 些 特征 表示 为 一 个 向 
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每 个 向 量 的 单个 值 可 以 是 二 进 制 或 加 权 。 因 此 ， 这 将 是 一 个 原始 消息 的 紧凑 表示 
并 且 它 可 以 随 图 形 结构 被 加 载 到 主 内 存 中 。 另 外 ， 原 始 消息 的 位 置 或 URL. 保存 在 
存 




















数据 结构 中 。 如 果 需 要 ， 我 们 可 以 获得 所 要 的 消息 。 随 着 时 间 的 推移 ， 特 征 向 量 








主 内 
可 能 由 于 内 容 ( 见 本 章 
演进 。 


26.3.3 RDF 仓库 





RDF 是 语义 Web 











参考 文献 [MASUI0a]) 的 动态 特性 而 改变 ， 因 此 特征 集 可 能 会 








基于 之 前 针对 动态 特征 集中 数据 流 演进 的 研究 ， 我 们 还 研究 了 替代 方案 。 


架构 
的 数据 形式 。 但 是 ， 它 可 以 用 来 表示 世界 上 任何 链接 数据 。RDF 




















数据 实际 上 是 三 元 组 集合 。 三 元 组 包括 3 个 部 分 : 主体 、 谓 词 和 客体 。 在 RDF "P, JL 
乎 所 有 的 东西 都 是 资源 ， 因 此 格式 其 实 就 是 名 称 。 主 体 和 谓词 都 是 资源 。 客 体 可 以 是 资 





源 也 可 以 是 文字 。 在 这 里 ，RDF 数据 可 以 被 看 作 有 向 图 ， 其 中 谓词 是 从 主体 到 客体 的 
边 。 因 此 ， 在 我 们 的 研究 中 对 任何 图 形 建 模 ， 都 利用 RDF 三 元 组 格式 。 在 这 里 ， 在 图 





























形 数据 集中 从 源 节 点 到 目的 地 节点 的 边 分 别 表示 为 RDF 三 元 组 主体 、 谓 词 和 客体 。 为 


了 降低 RDF 三 元 组 的 
一 的 编号 并 且 以 二 进 








仓库 大 小 ,我们 利用 字典 编码 ， 即 ， 把 每 个 唯一 字符 串 替 换 为 唯 








出 格式 存储 RDF 数据 。 因 此 ，RDF 三 元 组 将 含有 编码 形式 的 主体 、 


谓词 和 客体 。 我 们 维护 一 个 单独 的 表 / 文 件 来 跟踪 字典 编码 信息 。 为 了 解决 数据 的 动态 
性 质 ， 我 们 通过 在 网 络 中 添加 时 间 戳 ， 以 及 表示 信息 的 主体 、 谓 词 和 客体 来 将 RDF 三 
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3h263k AF JR pai JU RF VE S652 de $c3g (7) 
元 组 扩展 为 四 元 组 。 

图 26. 3 显示 了 我 们 的 仓库 体系 结构 包含 两 个 组 件 。 图 26. 3 的 上 半 部 分 描述 了 数据 
预 处 理 组 件 ， 下 半 部 分 展示 的 是 应 答 查 询 组 件 。 我 们 对 数据 的 生成 和 预 处 理 包含 3 个 子 
部 分 。 如 果 数 据 不 是 Y 个 三 元 组 ， 那 么 我 们 就 使 用 w 个 ， 三 元 组 转换 组 件 把 它 转换 成 
NN 个 三 元 组 序列 化 格式 。PS 组 件 提取 w 个 三 元 组 数据 ， 并 把 它们 分 割 成 谓词 文件 。 基 
于 谓词 的 文件 被 送 到 POS 组 件 中 ,该 组 件 将 根据 客体 的 类 型 ， 将 谓词 文件 分 割 成 更 小 
的 文件 。 

我 们 的 Map/Reduce 框架 有 3 个 子 组 件 。 它 需要 用 户 的 SPARQL 查询 ， 并 将 其 传递 
给 输入 选择 器 和 计划 生成 器 。 该 组 件 将 选择 输入 文件 ， 决定 需 要 多 少 Map/Reduce 作 
业 ， 并 将 信息 传递 给 使 用 Map/Reduce 框架 运行 作业 的 连接 执行 程序 组 件 。 然 后 它 会 将 
来 自 Hadoop 中 的 查询 答案 发 给 用 户 。 
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26.3 RDF 仓库 架构 








26.3.4 数据 存储 
我 们 以 N -Triples 格式 存储 数据 ， 因 为 在 这 种 格式 中 ,我 们 在 文件 的 一 行 中 有 一 个 
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完整 的 RDF 三 元 组 (主体 、 谓 词 和 客体 ) ， 这 与 Map/Reduce 作业 一 起 使 用 会 非常 方便 。 
我 们 对 数据 进行 字典 编码 以 提高 效率 。 字 词 编码 是 指 用 唯一 的 二 进 制 数 蔡 换 文本 字符 
串 ， 这 不 仅 减 少 存储 所 需 的 磁盘 空间 ， 而 且 因为 处 理 原 始 数据 类 型 比 字符 串 匹 配 要 快 ， 
这 会 导致 查询 应 答 速度 快 。 下 面 描 述 获 得 预期 格式 数据 的 处 理 步骤 。 
26.3.4.1 文件 组 织 

我 们 不 把 数据 存储 在 单一 文件 中 ， 因 为 在 Hadoop 和 Map/Reduce 框架 中 ， 一 个 文件 
是 一 个 Map/ Reduce 作业 的 最 小 输入 单元 ， 在 没有 缓存 的 情况 下 ， 始 终 从 磁盘 中 读 取 数 
据 。 如 果 我 们 把 所 有 数据 放 在 一 个 文件 中 ， 那 么 整个 文件 就 被 输入 到 每 个 查询 的 作业 中 
去 。 相 反 ， 如 果 我 们 把 数据 分 成 多 个 小 文件 ， 那 么 这 个 分 割 就 会 用 以 下 两 个 步骤 进行 。 
26. 3. 4. 2 谓词 分 割 

在 第 一 步 又 中 ， 我 们 根据 谓词 分 割 数 据 。 在 实际 RDF 数据 集中 ， 不 同 谓词 的 数量 
不 会 超过 100。 此 划分 将 立即 使 我 们 能 够 减少 任何 没有 变量 谓词 的 SPARQL 查询 的 搜索 
空间 。 对 于 这 样 的 查询 ， 我 们 可 以 为 每 个 谓词 选择 一 个 文件 ， 并 仅 在 这 些 文件 上 执行 查 
询 。 为 简单 起 见 ， 我 们 用 谓词 命名 文件 ， 例 如 ， 包 含 谓 词 py: pred 的 所 有 三 元 组 放 进 名 
为 pl -pred 的 文件 夹 。 但 是 ， 如 果 一 个 三 元 组 模式 里 含有 变量 谓词 ， 并 且 我 们 不 能 确定 
客体 的 类 型 ， 就 必须 考虑 所 有 文件 。 如 果 我 们 可 以 确定 客体 类 型 ， 那 么 我 们 就 考虑 那些 
含有 这 种 客体 类 型 的 文件 。 
26.3.4.3 谓词 客体 分 割 

在 接 下 来 的 一 步 中 ， 我 们 要 使 用 rdf type 文件 中 显 式 类 型 的 信息 。 该 文件 首先 被 
分 成 与 rdf: type 谓词 具有 不 同 客体 、 但 数量 一 样 多 的 文件 。 客 体 值 将 不 再 需要 存储 在 
文件 中 ， 因 为 它们 可 以 从 文件 名 中 轻松 检索 。 这 将 进一步 减少 存储 数据 所 需 的 空间 。 

然后 我 们 根据 客体 的 类 型 ， 划 分 剩 下 的 谓词 文件 。 并 不 是 所 有 的 客体 都 是 URI， 有 
些 是 文字 。 文 字 将 会 由 谓词 命名 的 文件 保存 ， 对 于 这 些 文字 不 需要 做 进一步 处 理 。 这 
些 文件 中 的 URI 客体 的 信息 类 型 并 没有 被 提 及 ， 但 是 可 以 从 rdf -type_ * 文件 中 检索 。 
URI 对 象 将 被 移动 到 它们 各 自 的 以 predicate, type 命名 的 文件 中 。 


26.3.5 使 用 Hadoop /Map /Reduce 技术 应 答 查 询 


对 于 查询 ， 我 们 可 以 使 用 类 似 于 SQL 的 查询 语言 Hive 和 RDF 数据 的 查询 语言 
SPARQL。 当 在 HiveQL 中 提交 查询 时 ， 在 Hadoop 上 安装 并 运行 Hive， 可 以 基于 上 面 提 
供 的 架构 来 应 答 该 查询 。 当 提交 SPARQL 查询 以 从 图 形 中 检索 相关 数据 时 ， 首 先 我 们 生 
成 一 个 具有 最 小 数量 Hadoop 作业 的 查询 计划 。 

接 下 来 ,我 们 运行 作业 并 应 签 查询 。 最 后 ， 当 我 们 向 用 户 呈 现 查 询 结 果 时 ， 要 将 用 
于 编码 字符 串 的 数字 转换 回 字符 串 。 我 们 专注 于 最 大 限度 地 减少 作业 的 数量 ， 因 为 在 我 
们 的 观察 中 ， 发 现 建立 Hadoop 任务 是 非常 昂贵 的 ， 并 且 也 是 应 答 查 询 时 的 主要 因素 
(按时 间 ) 。 寻 找 最 小 数量 作业 的 搜索 空间 是 指数 级 的 。 所 以 ， 我 们 试图 找到 一 个 基于 
贪 禁 的 解决 方案 ， 或 者 一 般 来 说 ， 寻 找 一 个 近似 解决 方案 。 我 们 的 方法 将 能 够 处 理 涉及 
推理 的 查询 。 如 果 需 要 的 话 ， 我 们 就 可 以 实现 推断 数据 。 
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26.3.6 数据 挖掘 应 用 


为 了 检测 异常 /内 部 威胁 ， 我 们 正在 研究 机 器 学 习 和 域 知 识 指导 技术 。 我 们 的 目标 
是 建立 一 个 相对 的 基准 来 评估 混沌 吸收 子 的 有 效 性 。 我 们 采用 基于 半 监 督 模型 的 整体 方 
法 ， 而 不 是 将 正常 行为 建 模 和 检测 变量 作为 异常 模型 。 需 要 注意 的 是 ， 首 先 ， 在 我 们 机 
器 学 习 的 技术 中 ， 我 们 应 用 一 系列 活动 或 维度 作为 特征 。 其 次 ， 领 域 知识 〈 例 如 敌对 
行为 ) 将 作为 半 监 督学 习 的 一 部 分 ， 并 且 将 用 于 识别 正确 的 特征 。 最 后 ,我们 的 技术 
将 能 够 识别 一 个 全 新 的 异常 。 随 着 时 间 的 推移 ， 活 动 /维度 可 能 改变 或 者 偏离 。 因 此 ， 
我 们 的 分 类 模型 需要 适应 ， 并 确定 新 的 类 型 或 全 新 的 异常 。 我 们 开发 了 自 适 应 和 新 型 的 
类 检测 技术 ， 这 使 得 我 们 的 内 部 威胁 检测 可 以 应 对 变化 ， 进 而 能 识别 或 隔离 新 的 异常 。 

我 们 采用 分 类 技术 来 检测 内 部 威胁 /异常 。 每 个 不 同 的 内 部 任务 被 视 为 类 ， 维 度 / 活 
动 被 视 为 特征 。 由 于 分 类 是 有 监督 的 任务 ， 而 我 们 需要 一 个 训练 集 。 给 定 一 个 训练 集 ， 
特征 提取 将 是 一 个 挑战 。 我 们 应 用 n- grams 分 析 来 提取 特征 或 产生 一 些 基于 时 间 属 性 
的 序列 。 一 旦 一 个 新 的 测试 用 例 产 生 ， 我 们 首先 测试 它 对 我 们 的 分 类 器 模型 的 作用 。 对 
于 分 类 器 模型 ， 我 们 可 以 应 用 支持 向 量 机 、KNN 和 马尔 科 夫 模型 。 

从 机 器 学 习 的 角度 来 看 ， 习 惯 上 把 行为 归 类 为 异常 或 正常 。 然 而 ， 恶 意 内 部 人 士 的 
行为 ( 即 内 部 威胁 ) 可 能 不 会 被 立即 识别 为 恶意 行为 ， 并 且 还 可 能 也 具有 和 良性 行为 的 
微妙 偏离 。 这 种 情况 下 ， 传 统 的 基于 机 器 学 习 的 分 类 模型 很 可 能 将 恶意 内 部 威胁 分 类 为 
良性 的 。 能 够 看 到 基于 机 器 学 习 的 新 类 检测 技术 ， 可 能 检测 到 作为 新 类 的 内 部 威胁 ， 并 
因此 触发 警报 〈 见 本 章 参考 文献 [MASU10a] ) ， 这 将 是 一 个 非常 有 意义 的 事情 。 
新 类 检测 技术 被 应 用 于 从 用 户 活 动 中 生成 的 大 量 数据 。 由 于 这 些 数 据 具 有 时 间 特 
性 ， 并 且 连 续 生 成 ， 所 以 通常 称 为 数据 流 。 新 类 检测 模型 随 着 输入 数据 逐步 更 新 。 这 将 
人 允许 我 们 将 内 存 需求 保持 在 一 个 一 定 的 限制 内 ， 因 为 原始 数据 将 被 丢弃 ， 但 是 行为 的 特 
征 / 模 式 仍 将 在 模型 中 进行 汇总 。 此 外 ， 这 种 增 量 学 习 也 将 减少 训练 时 间 ， 因 为 即使 有 
新 的 输入 数据 ， 模 型 也 不 需要 从 头 开 始 建立 。 因 此 ， 这 种 增 量 学 习 技 术 在 实现 可 扩展 性 
上 是 有 用 的 。 

我 们 正在 研究 我 们 已 经 开发 的 技术 以 及 其 他 有 关 建 模 和 异常 检测 的 相关 技术 。 特 别 
是 ,我们 正在 开发 : 

Wi 能 够 分 析 ， 并 对 良性 和 异常 任务 建 模 的 工具 。 

图 识别 正确 的 维度 和 活动 ， 并 应 用 修剪 以 丢弃 不 相关 维度 的 技术 。 

图 用 于 应 对 变化 和 新 类 /异常 检测 的 技术 。 

在 一 个 典型 的 数据 流 分 类 任务 中 ， 往 往 假设 类 的 总 数 是 固定 的 。 这 种 假设 在 内 部 威 
胁 检测 情况 下 可 能 是 无 效 的 ， 因 为 新 的 类 可 能 演变 。 传 统 的 数据 流 分 类 技术 不 能 识别 新 
的 类 的 实例 ， 直 到 手动 识别 新 类 的 出 现 ， 并 且 该 类 的 标记 实例 被 呈现 给 用 于 训练 的 学 习 
算法 。 由 于 概念 漂移 的 存在 ， 当 底层 数据 分 布 随 着 时 间 变 化 时 ,问题 就 变 得 更 具 挑 战 
性 。 我 们 已 经 开发 出 一 种 新 的 和 高 效 的 技术 ， 这 可 以 自动 检测 一 个 新 类 ( 即 全 新 异常 ) 
的 出 现 ， 这 种 检测 需要 通过 量化 未 标记 的 测试 实例 之 间 的 内 聚 ， 并且 从 训练 实例 中 分 离 
测试 实例 。 我 们 的 目标 是 运用 可 用 的 数据 建立 模型 。 
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这 个 模式 的 一 个 有 趣 的 方面 是 它 可 以 捕捉 任务 维度 的 动态 性 质 ， 并 且 滤 除 嗜 杂 的 行 
A. HERE (良性 和 异常 ) 具 有 动态 性 质 ， 因 为 它们 倾向 于 随时 间 而 变化 ， 我 们 将 其 视 
为 概念 漂移 。 新 类 别 检测 的 一 个 主要 挑战 是 从 概念 漂移 和 噪声 数据 中 分 离 出 新 家 的 类 。 
我 们 在 目前 的 工作 中 正在 探索 这 个 挑战 。 
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26.4 综合 框架 





正如 我 们 在 26. 2 节 中 论述 的 那样 ， 内 部 威胁 检测 是 一 个 非常 具有 挑战 性 的 问题 。 
在 上 一 节 中 ,我 们 讨论 了 处 理 这 个 问题 的 方法 。 内 部 威胁 不 仅 发 生 在 应 用 程序 级 ， 它 还 
发 生 在 所 有 级 别 ， 包 括 操作 系统 、 数 据 库 系统 和 应 用 程序 。 此 外 ， 由 于 内 部 程序 不 断 变 
化 的 模式 ,使 用 一 个 纯 静 态 算法 检测 所 有 类 型 的 恶意 行为 是 不 可 能 的 。 所 以 必须 需要 一 
个 动态 学 习 方法 。 从 本 质 上 讲 ， 我 们 需要 一 个 全 面 的 方法 来 解决 内 部 威胁 问题 。 但 是 ， 
为 了 提供 一 个 更 全 面 的 解决 方案 ， 我们 就 需要 一 个 更 全 面 的 框架 。 因 此 ， 我们 为 内 部 威 
胁 检测 提出 一 个 框架 。 我 们 的 框架 将 实施 一 些 相 关 的 解决 方案 来 检测 内 部 恶意 威胁 。 图 
26.4 说 明了 这 样 一 个 框架 。 我 们 正在 研究 4 个 方法 来 解决 这 个 问题 。 这 个 框架 的 核心 
模块 是 实现 了 舱 入 引用 监视 右 的 技术 ， 以 方便 实现 特征 收集 。 这 个 特征 收集 过 程 由 两 个 
模块 组 成 ; 一 种 使 用 博弈 论 方法 而 男 一 种 使 用 基于 自然 语言 的 方法 ， 来 确定 哪些 特征 可 
以 被 收集 。 第 四 个 模块 使 用 机 需 学 习 技 术 分 析 收 集 的 特征 。 总 之 ，4 种 方法 之 间 的 关系 
可 以 表征 如 下 : 












































































用 于 特征 分 析 
的 机 器 学 习 工 具 





























用 于 特征 选 用 于 采集 特 
择 的 博弈 论 工具 征 生成 的 Honey token 
嵌入 引用 监视 
工具 生成 特征 





图 26.4 内 部 威胁 检测 框架 
B 诬 入 引用 监视 器 (In -line reference monitors, IRM) 进行 隐蔽 的 ， 细 粒度 的 特征 
收集 。 
B 博弈 论 技术 确定 哪些 特征 需要 被 IRM 收集 。 
B 一 般 的 自然 语言 处 理 技术 和 特殊 的 Honey token 生成 技术 ， 将 采取 积极 的 方法 来 
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引入 可 以 收集 的 其 他 有 用 的 功能 (B Honey token 访问 ) ó 

国 机 器 学 习 技 术 将 使 用 收集 的 特征 来 推断 和 分 类 恶意 内 部 程序 。 

我 们 框架 的 细节 由 本 章 参考 文献 [HAMLI1] 提供 。 我 们 在 假设 中 骨 入 引用 监视 工 
具 、 博 弈 论 工 具 和 Honey token 生成 工具 ， 这 些 都 将 挑选 和 精炼 我 们 需要 的 特征 。 随 后 ， 
数据 挖掘 工具 将 分 析 特征 ， 并 且 确 定 是 否 有 潜在 的 内 部 威胁 。 

我 们 已 经 开始 实施 框架 的 部 分 工作 。 特 别 的 ， 我 们 已 经 开发 了 一 些 数 据 流 挖掘 技术 
用 来 检测 内 部 威胁 。 恶 意 内 部 活动 的 证 据 常 常 埋藏 在 大 数据 流 中 ， 例 如 累积 数 月 或 数 年 
的 系统 日 志 。 基 于 集成 的 数据 流 挖掘 ， 并 通过 利用 多 分 类 器 模型 ， 可 以 在 这 些 数据 流 中 
实现 高 精度 的 异常 检测 ， 即 使 数据 流 是 无 限 的 、 不 断 变化 的 和 未 标记 的 。 这 使 得 该 方法 
能 有 效 地 识别 内 部 威胁 ， 即 使 是 那些 通过 随时 间 变 化 而 改变 他 们 行为 来 试图 隐瞒 自己 活 
动 的 内 部 威胁 。 我 们 的 方法 是 基于 集成 的 数据 流 挖 气 ， 无 需 监 督学 习 。 通 过 基于 图 形 的 
异常 检测 的 对 比 ， 来 应 对 内 部 威胁 检测 的 问题 。 证 明基 于 集成 的 方法 是 显著 的 ， 且 比 传 
统 单 模型 方法 更 有 效 。 我 们 进一步 探讨 了 不 同学 习 策 略 对 不 断 演变 内 部 威胁 的 适用 性 。 
同时 ， 也 开发 了 可 在 云 计 算 上 实现 的 无 监督 机 器 学 习 算 法 ， 来 检测 内 部 威胁 。 更 多 的 信 
息 参 见 本 章 参考 文献 [PALL12 ] 。 基 于 集成 的 数据 流 挖掘 应 用 信息 参见 第 25 章 ， 算 法 
的 细节 参见 本 章 参 考 文献 [MASU10a] 。 


















































































































































26.5 ”总结 和 展望 





在 本 章 中 ,我 们 讨论 了 内 部 威胁 检测 方法 。 将 内 部 人 员 和 他 们 的 沟通 视 为 RDF 图 
表 ， 然 后 进行 查询 并 且 通 过 挖掘 图 形 来 提取 信息 。 我 们 也 提供 了 一 个 综合 的 框架 来 进行 
内 部 威胁 检测 。 

内 部 威胁 问题 是 一 个 刚刚 开始 被 研究 的 ， 且 具有 挑战 性 的 问题 。 其 中 的 主要 问题 是 
内 部 威胁 常常 改变 他 /她 的 模式 和 行为 ， 因 此 ， 我 们 需要 自 适应 的 工具 。 例 如 ， 我 们 在 
第 25 草 讨 论 的 数据 流 挖掘 技术 可 被 用 于 检测 这 种 威胁 。 我 们 也 已 经 有 了 一 些 初步 的 数 
据 流 控 气 工具 〈 见 本 章 参 考 文献 [PALL12] ) 。 因 为 大 量 的 数据 需要 被 分 析 ， 基 于 云 计 
算 的 数据 挖掘 对 内 部 威胁 检测 来 说 将 是 合适 的 方法 。 我 们 的 方法 对 内 部 威胁 检测 基本 上 
可 以 看 作 是 安全 即 服务 的 解决 方案 。 
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第 27 章 以 云 为 中 心 保 障 信息 共享 


27.1 概述 


随 着 云 计算 的 出 现 和 软件 即 服务 (Software as a Service, SaaS) 模式 的 不 断 发 展 ， 
这 对 保障 信息 共享 (Assured Information Sharing, AIS) 作为 云 中 的 服务 提出 了 越 来 越 多 
的 需求 。 于 2011 年 4 月 NSA ( 到 家 安全 局 ) 的 CIO ( 席 信 息 官 ) Lonny Anderson 在 描 
述 该 机 构 关 注 以 “以 云 为 中 心 ”的 方式 与 其 他 机 构 进 行 信息 共享 时 ， 将 这 种 需求 的 紧 
迫 性 已 经 表现 出 来 ( 见 本 章 参考 文献 [NSA11] ) 。 同 样 地 ， 国 防 部 已 经 在 利用 云 计算 
模式 的 高 效 经 济 、 灵 活 和 可 扩展 性 ， 以 满足 其 通过 敏捷 企业 所 提供 信息 的 力量 来 确保 任 
务 成 功 的 愿景 ， 从 而 在 整个 信息 环境 中 具有 可 操作 性 和 自由 度 ( 见 本 章 参 考 文献 
[DoD]、[Dop0o7]、[Dop09])。 因 此 ， 这 两 个 机 构 认 为 云 环境 的 有 效 AS 技术 和 工具 
都 非常 需要 。 
虽然 一 些 AIS 工具 在 过 去 五 年 中 ， 作 为 基于 策略 的 信息 共享 已 经 被 开发 ( 见 本 章 参 
考 文献 [FINIO9], [ THURO8] 、[ AWAD10] 、[ RAO08] ) ,但 据 我 们 所 知 这 些 工具 都 没 
有 运行 在 云 上 ， 并 且 也 不 提供 可 扩展 性 ， 去 文 持 大 量 用 户 使 用 大 量 数据 。 我 们 最 近 用 于 
支持 基于 云 的 AIS 的 原型 系统 ， 已 经 应 用 了 以 云 为 中 心 的 引擎 ， 通 过 非 云 策略 引擎 以 
XACML 格式 执行 策略 ， 能 够 查询 关系 数据 库 中 的 大 量 数据 ( 见 本 章 参 考 文献 
[THUR10]、[THUR11] )。 虽 然 相对 于 之 前 的 努力 来 说 ， 这 是 一 个 显著 的 改善 (并 给 
予 我 们 机 会 实施 云 计算 的 方案 )， 但 它 始 终 至 少 有 三 个 明显 的 局 限 性 。 第 一 ， 基 于 XAC- 
ML 的 策略 规范 ， 不 足以 支持 像 NSA 和 国防 部 这 样 的 AIS 任务 所 需 的 许多 复杂 策略 。 第 
二 ， 为 了 满足 关键 任务 的 可 扩展 性 和 效率 要 求 ， 策 略 引 擎 需要 在 云 中 运行 。 第 三 ， 基 于 
关系 技术 的 查询 处 理 安全 存在 局 限 性 ， 主 要 表现 在 表示 和 处 理 许 多 应 用 所 需 的 非 结 构 化 
数据 方面 。 

为 了 安全 有 效 地 共享 大 量 数据 ， 显 然 在 云 中 需要 无 颖 集成 策略 和 数据 管理 需 。 
此 ， 为 了 满足 云 中 心 AIS 的 需求 ， 我 们 需要 人 @ 云 驻 留 策略 管理 器 ， 强 制 执行 语义 丰富 的 
信息 共享 策略 ;，Q@ 云 驻 留 数据 管理 器 ， 它 能 安全 地 存储 和 检索 数据 ， 并 与 策略 管理 器 无 
颖 集成 。 据 我 们 所 知 ， 目 前 还 没有 这 样 的 系统 存在 。 因 此 ， 我 们 基于 云 计 算 AIS 系统 的 
项 目 设计 和 开发 分 为 两 个 阶段 进行 。 

我 们 已 经 设计 了 一 个 系统 ， 并 且 实 现 了 以 云 为 中 心 的 信息 共享 保障 系统 (Cloud - 
centric Assured Information Sharing System, CAISS) 的 一 个 版 本 ， 主 要 利用 我 们 之 前 设计 
的 内 部 工具 和 一 些 开源 工具 作为 系统 组 件 。CAISS 包括 两 部 分 : 一 个 是 以 云 为 中 心 的 策 
略 管理 器 并 执行 RDF 中 的 策略 ， 另 一 个 是 以 云 为 中 心 的 数据 管理 器 将 存储 和 管理 RDF 
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中 指定 的 数据 。RDF 数据 管理 器 本 质 上 是 一 个 SPARQL 查询 引擎 ， 一 种 被 Web 网 络 技 
术 交 流 社区 用 来 查询 RDF 数据 广泛 使 用 的 语言 。RDF 是 语义 Web 语言 ， 在 制定 与 推理 
策略 方面 ， 一 般 认为 与 XACML 相 比 其 更 具 表 现 力 。 此 外 ， 我 们 的 策略 管理 器 和 数据 
理 器 将 无 颖 集成 ， 因 为 它们 都 管理 RDF 数据 。 在 第 一 阶段 ， 我 们 为 云 中 心 的 AIS 选择 
基于 RDF 的 方法 ， 因 为 它 满足 了 前 面 提 到 的 两 个 必要 条 件 , 已 经 开发 了 一 个 基于 RDF 
的 非 以 云 为 中 心 的 策略 管理 器 ( 见 本 章 参 考 文献 [ CADE11a]) 和 一 个 基于 RDF 的 云 
中 心 数据 管理 器 ( 见 本 章 参 考 文献 [ HUSA11] ) 。 具 体 来 说 ， 我 们 正在 加 强 基 于 RDF 
的 策略 引擎 ， 在 云端 运行 ， 扩 展 我 们 以 云 为 中 心 的 RDF 数据 管理 器 与 策略 管理 器 集成 ， 
并 为 CAISS 构建 一 个 集成 框架 。 我 们 在 第 28 章 描述 CASS 版 本 的 详细 实现 。 

虽然 我 们 的 CAISS 设计 和 实施 将 会 是 第 一 个 支持 以 云 为 中 心 的 AS 的 系统 ， 但 它 仅 
在 单个 可 信赖 云 上 运行 ， 因 此 不 支持 跨 多 个 云 的 信息 共享 。 此 外 ， 虽 然 CAISS 采用 的 基 
于 RDF 的 策略 规范 和 形式 语义 学 方法 ， 此 方法 将 比 基 于 XACML 的 方法 明显 更 具 表 现 
J, 但 是 由 于 RDF 不 提供 足够 丰富 的 词汇 表 (例如 ， 对 类 的 支持 )， 它 就 不 会 支持 有 关 
内 容 的 增强 的 机 器 可 解释 性 。 我 们 因此 设计 了 一 个 功能 齐全 和 功能 强大 的 AIS 系统 
(CAISS + +) 来 解决 这 些 不 足 之 处 。CAISS 对 CAISS + + 来 说 是 重要 的 基础 ， 因 为 
CAISS 可 以 被 用 来 作为 基准 框架 ， 并 可 以 作为 几 个 性 能 尺度 的 参照 物 ， 比 如 存储 模型 的 
效率 和 基于 OWL 策略 的 表现 力 。 此 外 ， 由 于 CAISS 和 CAISS + + 共享 相同 的 核心 组 件 
(策略 引擎 和 查询 处 理 器 ) ，CAISS 中 这 些 组 件 的 实现 和 集成 的 经 验 ， 对 于 开发 CAISS + 
+ 是 宝贵 的 。 最 终 ，CAISS 的 测试 和 评估 ， 也 为 我 们 提供 了 对 CAISS 不 足 之 处 的 重要 见 
解 ， 这 将 在 CAISS + + 的 实施 中 系统 地 解决 。 

我 们 还 将 对 策略 规范 和 软件 级 保护 机 制 进行 形式 分 析 ， 强 制 执行 这 些 机 制 ， 为 所 得 
到 的 系统 提供 极 高 的 安全 保障 。 我 们 设想 CAISS + + 应 用 在 高 度 关键 任务 的 应 用 程序 。 
因此 ， 必 须 提供 保证 策略 是 以 可 靠 的 方式 执行 的 。 在 对 CASS + + 分 析 中 ， 我 们 将 利用 
形式 策略 分 析 ( 见 本 章 参 考 文献 [JONE10] 、[JONE11]) 中 的 相关 工作 ， 并 通过 机 器 
认证 的 舰 入 引用 监视 器 ( 见 本 章 参考 文献 [HAML06a] 、[ HAML06b] 、[ SRID10] ) 去 
实施 。 此 类 分 析 将 用 于 建 模 和 验证 安全 属性 ， 主 要 是 CAISS + + 的 可 信 计 算 基 中 的 核心 
软件 组 件 实施 时 的 安全 属性 。 

CAISS + + 对 信息 共享 来 说 将 会 是 一 项 关键 技术 ， 因 为 它 是 一 种 组 合 ， 不 仅 采 用 以 
云 为 中 心 的 策略 规范 ， 并 实施 以 云 为 中 心 的 数据 存储 和 有 效 的 查询 评估 。CAISS + + 将 
利用 本 体 语言 OWL 来 构建 策略 。 这 种 本 体 与 基于 语义 的 网 络 规则 语言 (例如 ，SWRL) 
的 混合 ， 促 进 了 对 策略 的 分 散 推 理 来 实现 其 安全 性 。 此 外 ，CAISS + + 将 包括 一 个 基于 
信息 共享 策略 的 RDF 处 理 引 擎 ， 它 提供 基于 成 本 优化 来 评估 SPARQL 查询 。 

本 章 结构 如 下 。 我 们 将 在 27. 2. 1 WHE CAISS 的 设计 ，27. 2. 2 节 讨 论 CAISS + + 
的 设计 。27. 2.3 节 和 27. 2.4 节 分 别 讨论 形式 策略 分 析 和 CAISS + + 实施 方法 。 相 关 工 
作 在 27. 3 节 进 行 讨 论 。 在 27.4 节 对 本 章 进 行 总 结 。 图 27.1 说 明了 本 章 包含 的 内 容 。 
在 本 章 参 考 文献 [THURI2] 中 有 我 们 工作 的 细节 。 我 们 的 ATS 方法 由 附录 D 提供 。 需 
要 注意 的 是 ， 第 28 章 将 讨论 CAISS 作为 语义 Web 服务 集合 的 实现 版 本 。 
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图 27.1 以 云 为 中 心 的 信息 共享 保障 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V . , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. ， 和 
Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence and Security 
Informatics - Pacific Asia Workshop, PAISI 2012, Kuala Lumpur, Malaysia, 7299, 
2012, p. 1 - 26, © Springer, ISBN 978 -3 —642 - 30427 - 9. ) 





27.2. 系统 设计 


27.2.1 CAISS 设计 


我 们 正在 以 下 两 个 方面 加 强 我 们 的 工具 。Q@ 使 用 语义 Web 数据 来 保护 云 查 询 处 理 ; 
@ 基 于 语义 Web 的 策略 引擎 来 开发 CAISS。 我 们 的 工具 详情 见 27.4 节 (相关 工作 )。 在 
本 节 中 ， 我 们 将 讨论 对 我 们 开发 CASS 所 用 工具 的 改进 。 

首先 ， 我 们 基于 RDF 的 策略 引擎 对 表示 为 RDF 图 的 数据 执行 访问 控制 、 编 辑 和 推 
理 控制 策略 。 其 次 ， 我 们 的 云 SPARL RDF 数据 查询 引擎 使 用 Hadoop / Map/Reduce 框 
架 。 需 要 注意 的 是 ，Hadoop 是 Apache 分 布 式 系统 ，Map/Reduce 位 于 Hadoop 之 上 ,并 
执行 作业 调度 。 如 我 们 基于 云 的 关系 查询 处 理 器 原型 ( 见 本 章 参考 文献 [ THUR10]) 
的 情况 , SPARQL 查询 引擎 还 处 理 XACML 中 指定 的 策略 ， 策 略 引擎 实现 XACML 协议 。 
使 用 XACML 作为 策略 语言 ， 这 需要 对 XACML 设计 中 所 使 用 的 一 般 概 念 要 有 广泛 的 了 
解 。 因 此 ，XACML 中 的 策略 制定 需要 一 个 陡峭 的 学 习 曲 线 ， 因 此 应 该 由 一 个 经 验 丰 富 
的 管理 员 负 责 该 任务 。 使 用 XACML 的 第 二 个 缺点 是 和 性 能 相关 。XACML 的 当前 实现 
需要 针对 系统 中 的 每 个 策略 来 评估 访问 请 求 ， 直 到 策略 应 用 于 输入 的 请 求 。 对 于 相对 较 
少 的 用 户 和 少量 访问 请 求 的 系统 ， 这 种 策略 是 足够 的 。 然 而 ， 对 于 具有 大 量 用 户 和 大 量 
访问 请 求 的 系统 ， 上 述 策略 成 为 性 能 瓶颈 。 最 后 ，XACML 对 于 捕获 信息 共享 策略 的 语 
义 不 是 很 有 表达 能 力 。 此 前 的 工作 表明 ， 基 于 Web 的 语义 策略 表达 能 力 更 强 。 这 是 因 
为 语义 Web 技术 是 基于 描述 逻辑 的 ， 并 且 有 能 力 来 代表 知识 以 及 知识 的 推理 。 因 此 ， 
我 们 的 第 一 步 是 用 一 种 基于 Web 的 语义 策略 引擎 替换 基于 XACML 的 策略 引擎 。 因 为 我 
们 已 经 有 基于 RDF 的 策略 引擎 ， 对 于 第 1 阶段 的 原型 ， 我 们 将 增强 引擎 并 将 其 与 
SPARQL 查询 处 理 器 集成 。 由 于 我 们 的 策略 引擎 是 基于 RDF 的 ， 并 且 我 们 的 查询 处 理 需 
也 管理 大 型 RDF 图 ， 因 此 数据 和 策略 之 间 不 会 有 阻碍 不 匹配 的 情况 。 
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27.2.1.1 增强 策略 引擎 

我 们 目前 的 策略 引擎 有 一 个 局 限 性 ， 就 是 它 不 运行 在 云 上 。 因 此 ， 我 们 将 RDF 策 
略 引擎 移植 到 云 环境 中 ， 并 将 其 与 SPARQL 查询 引擎 集成 为 云 中 的 联合 查询 处 理 。 我 们 
的 策略 引擎 将 从 Hadoop/Map/Reduce 框架 的 可 扩展 性 和 分 布 式 平台 中 受益 ， 以 通过 大 型 
分 布 式 RDF 三 元 组 存储 ( 数 十 亿 的 RDF 三 元 组 ) 来 响应 SPARQL 查询 。 使 用 RDF 作为 
我 们 的 数据 模型 ， 理 由 是 : ORDF 使 我 们 能 够 实现 每 个 机 构 / 组 织 分别 编 目的 看 似 不 同 
的 信息 源 之 间 的 数据 互 操作 性 ; DEH RDE 允许 参与 机 构 创 建 以 数据 为 中 心 的 应 用 程 
序 ， 这 些 应 用 程序 可 利用 现 有 的 集成 数据 ; OHF RDF 不 需要 使 用 明确 的 数据 生成 模 
式 ， 因 此 可 以 轻松 适应 不 断 变化 的 用 户 需 求 。 策 略 引擎 的 灵活 性 是 基于 其 接受 的 高 级 策 
略 ， 并 通过 数据 的 有 向 RDF 图 表示 形式 把 它们 作为 查询 规则 执行 。 虽 然 我 们 以 前 的 工 
作 侧 重 于 来 源 数据 和 访问 控制 策略 ， 但 我 们 的 CAISS 原型 将 足够 灵活 地 处 理 RDF 中 的 
数据 ， 并 将 包括 信息 共享 策略 。 我 们 的 策略 引擎 的 优势 在 于 ， 它 可 以 处 理由 RDF 表示 
的 任何 类 型 的 策略 和 逻辑 规则 。 

我 们 策略 引擎 的 第 二 个 局 限 ， 是 它 目 前 只 能 解决 一 定 类 型 的 策略 ， 比 如 机 密 性 、 隐 
私 和 修订 策略 。 我 们 需要 把 信息 共享 纳入 策略 引擎 。 然 而 ， 我 们 对 基于 激励 的 AS 以 及 
在 云 中 AIS 原型 也 进行 了 仿真 研究 。 其 中 ,已 经 定义 了 一 系列 信息 共享 策略 ， 比 如 “如 
果 英 国 不 与 印度 共享 信息 ， 美 国 则 提供 信息 给 英国 ”。 我 们 在 RDF 中 指定 这 些 策 略 并 将 
它们 纳入 增强 的 策略 引擎 中 处 理 。 
27.2.1.2 增强 SPARQL 查询 处 理 器 
虽然 我 们 有 一 个 工具 将 通过 Hadoop 上 的 大 型 RDF 图 来 执行 SPARQL 查询 (在 第 13 
章 中 讨论 ) ， 但 仍然 需要 支持 路 径 查 询 ( 即 ， 对 RDF 图 中 的 路 径 请 求 提 供 答案 的 SPAR- 
QL 查询 ) 。 一 个 RDF 三 元 组 可 以 被 视 为 一 个 从 主体 到 客体 的 弧 ， 这 个 弧 是 用 谓词 标记 
的 。 SPARQL 查询 的 答案 是 基于 图 中 可 达 性 的 ( 即 源 节点 和 目标 节点 之 间 的 路 径 )。 沿 
着 一 条 路 径 的 弧 上 的 标签 级 联 ， 可 以 被 认为 是 属于 路 径 查 询 中 答案 集 的 单词 。 单 词 的 每 
个 部 分 均 由 RDF 图 中 的 三 元 组 的 一 些 谓词 标签 给 出 。 我 们 设计 了 一 种 算法 来 确定 候选 
三 元 组 作为 分 布 式 RDF 图 中 的 答案 集 。 首 先 ， 将 RDF 文档 转换 为 基于 谓词 标签 进行 拆 
分 的 NN 个 三 元 组 的 文件 。 一 个 词 中 的 术语 可 以 对 应 于 一 些 谓词 文件 。 其 次 ， 我们 通过 
在 分 布 式 RDF 图 中 追踪 适当 的 路 径 形 成 这 个 词 。 我 们 使 用 Map/Reduce 作业 构建 单词 ， 
并 将 候选 RDF 三 元 组 作为 一 个 指令 集 。 最后， 返回 所 有 一 组 有 序 的 RDF 三 元 组 作为 对 
应 的 SPARQL 查询 的 答案 。 
27.2. 1.3 集成 框架 

图 27. 2 提供 了 CAISS 体系 结构 的 概述 。 以 云 为 中 心 的 RDF 策略 引擎 与 增强 型 
SPARQL 查询 处 理 器 的 集成 必须 解决 以 下 问题 。 首 先 ， 我 们 需要 确保 基于 RDF 策略 可 以 
存储 在 查询 处 理 器 已 使 用 的 现 有 存储 模式 中 。 其 次 ， 我 们 需要 确保 增强 型 查询 处 理 器 能 
够 高 效 地 评估 基础 RDF 存储 器 上 的 策略 〈 即 路 径 查 询 ) 。 最 后 ， 我 们 需要 对 CASS 进行 
绩效 评估 ， 以 验证 其 符合 各 参与 机 构 的 绩效 要 求 。 图 27. 3 说 明了 CAISS 操作 的 概念 。 
在 这 里 ， 多 个 机 构 将 在 单个 云 中 共享 数据 。 增 强 的 策略 引擎 和 以 云 为 中 心 的 SPARQL Æ 
询 处 理 器 将 执行 信息 共享 策略 。 

在 开发 CAISS + + 之前， 完成 比如 CASS 等 概念 原型 的 证 明 有 几 个 好 处 。 首 先 ， 
CAISS 本 身 可 以 在 单个 云 中 共享 数据 。 其 次 ， 在 实施 CASS + + 时， 我们 将 有 一 个 基准 
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系统 ， 可 以 在 效率 和 易 用 性 方面 进行 比较 。 第 三 ， 这 将 为 我 们 提供 宝贵 的 经 验 教训 ， 将 
不 同 部 分 的 AIS 融入 云 中 。 最 后 ， 通 过 在 CAISS 上 运行 不 同 的 方案 ， 可 以 确定 CAISS + + 中 
需要 解决 的 潜在 性 能 瓶颈 。 









SPARQL 查 询 处 理 器 








[827.2 CAISS 原型 概述 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L., 
and Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence 
and Security Informatics — Pacific Asia Workshop, PAISI 2012, Kuala Lumpur, Malaysia, 7299, 2012, 
p.1-26, © Springer, ISBN 978 -3 — 642 — 30427 -9. ) 


机 构 1 机 构 2 机 构 n 






用 户 接 口 层 
SPARQL 查 
RDF 数 据 和 策略 SEN 


策略 转换 和 转换 层 
RDF 数 据 预 处 理 咒 


用 于 查询 处 理 的 
Map/Reduce 框 架 


Hadoop HDFS 
R 结果 


FE， 内 容 来 自 : Khadilkar, V., 
Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. , and Husain, M. F. 





BS 











27.3 CAISS 操作 (得 到 了 Springer 3x — FE ALA RY 





Media from Lecture Notes in Computer Science, Proceedings of Intelligence and Security 
Informatics — Pacific Asia Workshop, PAISI 2012, Kuala Lumpur, Malaysia, 7299, 2012, p. 
1-26, © Springer, ISBN 978 -3 - 642 — 30427 -9. ) 
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27.2.2 CAISS + + 的 设计 


我 们 已 经 审查 了 候选 方案 ， 并 进行 了 CAISS + + 的 初步 设计 。 根据 从 CAISS 原型 中 
吸取 的 经 验 和 CAISS + + 的 初步 设计 ， 我 们 将 对 CAISS + + 进行 详细 的 设计 ， 并 在 第 2 
阶段 中 实施 CAISS + + 的 操作 原型 。 在 本 节 中 ， 我 们 将 讨论 一 些 CASS 的 局 限 性 ， 然 后 
讨论 CAISS + + 的 设计 方案 。 
27.2.2.1 CAISS 的 局 限 性 

1) 策略 引擎 : CAISS 使 用 一 个 基于 RDF 的 策略 引擎 ， 但 其 表达 能 力 有 限 。RDF 的 
目的 是 提供 一 个 描述 资源 的 结构 (或 框架 ) 。OWL 建立 在 RDF 之 上 ， 并 且 它 被 设计 用 
于 需要 处 理 信 息 内 容 的 应 用 程序 ， 而 不 仅仅 是 向 人 类 用 户 提供 信息 。OWL 通过 提供 用 
于 描述 属性 、 类 以 及 形式 语义 的 附加 词汇 ， 增 加 了 比 RDF 环境 下 对 内 容 的 机 器 理解 性 。 
OWL 有 3 种 越 来 越 有 表现 力 的 语言 ， OWL Lite, OWL DL 和 OWL Ful， 可 以 根据 应 用 需 
求 自由 选择 合适 的 子 语言 。 在 CAISS + + 中， 我 们 计划 利用 比 RDF 更 有 表现 力 的 OWTL， 
通过 组 织 特定 的 域 本 体 和 系统 范围 的 上 层 本 体 ， 来 建立 安全 策略 (需要 注意 ，CAISS + 
+ 将 重用 组 织 的 现 有 域 本 体 ， 或 不 存在 本 体 时 ,促进 创建 一 个 新 的 领域 本 体 。 还 有 就 
是 ,我 们 必须 设计 上 层 本 体 ， 它 将 被 CASS + + 集中 的 组 件 使 用 ) 。 此 外 ，CAISS + + 
将 利用 分 布 式 推理 算法 ， 利 用 本 体 来 实施 安全 策略 。 

2) Hadoop 存储 架构 : CAISS 使 用 静态 存储 模型 ， 其 中 用 户 只 在 初始 化 阶段 把 RDF 
数据 提供 给 系统 。 此 后 ， 用 户 不 允许 更 新 现 有 数据 。 在 CAISS + + 中 ， 人 允许 用 户 对 存储 
在 HDFS 中 的 现 有 RDF 数据 添加 新 数据 。 需 要 注意 的 是 ， 仅 允许 用 户 附 加 新 数据 ， 而 
不 是 删除 /修改 现 有 数据 。 当 然 这 些 数据 来 自 HDFS 执行 的 、 具 备 只 能 添加 限制 的 文件 。 

3) SPARQL 查询 处 理 器 : CAISS 仅仅 文 持 简单 的 SPARQL 查询 ， 也 就 是 那些 利用 
基本 图 形 模式 (BGP) 的 查询 。 但 是 ,在 CAISS + + 中 支持 其 他 SPARQL 查询 操作 ， 比 
lll FILTER, GROUP BY, ORDER BY 等 。 另 外 ，CAISS 使 用 启发 式 查询 优化 器 ， 旨 在 减 
少 回答 一 个 查询 时 所 需要 的 Map/Reduce 作业 数目 。CAISS + + 将 引入 一 个 基于 成 本 的 
查询 优化 器 ， 最 大 限度 地 减少 查询 执行 过 程 中 访问 的 三 元 组 数量 。 
27.2.2.2 CAISS + + 设计 

CAISS + + 克服 了 CAISS 的 局 限 性 。 对 CAISS + + 的 设计 和 实施 细节 将 在 阶段 2 中 
执行 。 从 CAISS 中 学 到 的 经 验 ， 将 会 促进 CASS + + 的 详细 设计 。 我 们 假设 数据 用 适当 
的 DoD 加 密 技 术 加 密 ， 并 因此 对 本 项 目 不 进 行 加 密 研 究 。 对 CASS + + 操作 的 概念 与 其 
他 参与 机 构 在 图 27. 4 中 展示 ， 多 个 组 织 在 单一 云 中 共享 数据 。 

CAISS + + 的 设计 是 一 种 基于 OWL 策略 引 警 和 RDF 处 理 引 擎 的 新 型 组 合 。 因 此 ， 
这 项 设计 由 几 个 任务 组 成 ， 其 中 每 个 任务 单独 完成 后 ， 所 有 的 任务 将 被 集成 到 一 个 单一 
的 框架 : 中 基于 OWL 的 策略 引擎 ， 策 略 引 人 擎 使 用 一 组 特定 域 的 本 体 和 上 层 本 体 构 建 
AIS 任务 的 策略 。 任 务 执行 的 策略 可 能 需要 一 个 分 布 式 推 理 ， 因 此 ， 我 们 将 评估 现 有 的 
分 布 式 推理 器 。C@)RDF 处 理 引 擎 ， 处 理 引 擎 需要 构建 复杂 的 存储 架构 以 及 高 效 的 查询 
处 理 器 。@ 集 成 框架 : 最 终 的 任务 是 将 策略 引擎 和 处 理 引 擎 结合 成 一 个 集成 框架 。 
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图 27.4 CAISS + + 场景 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 ， 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L., 
和 Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence 
and Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 
7299, 2012, p. 1-26, © Springer, ISBN 978 -3 -642 -30427 -9) 








CAISS + + 的 初始 设计 在 设计 的 简单 性 与 可 扩展 性 和 效率 之 间 进 行 了 权衡 。 第 一 个 候选 
设计 方案 被 称 为 集中 CAISS + + ， 简 单 性 是 权衡 的 结果 。 而 第 二 个 候选 设计 方案 ( 称 为 
分 散 CAISS + +) 选择 可 扩展 性 和 效率 作为 权衡 的 结果 。 最 终 ， 我 们 还 提供 一 个 混合 
CAISS + + 架构 试图 结合 这 两 者 的 优点 。 由 于 CASS + + 遵循 需求 驱动 设计 ， 我 们 通过 
上 面 提 到 任务 的 划分 ， 来 实现 AIS， 这 将 在 接 下 来 的 方法 中 有 所 展现 。 
27.2.2.3 集中 式 CAISS + + 

图 27. 5 说 明了 通过 集中 式 CAISS + + 交互 的 两 个 机 构 。 集 中 式 CASS + + 由 共享 
云 存储 组 成 ， 用 于 存储 共享 数据 。 所 有 参与 机 构 都 存储 各 自 的 知识 基础 ， 这 些 知 识 基 础 
由 带 有 相应 实例 数据 的 本 体 组 成 。 集 中 CASS + + 还 包括 一 个 上 层 本 体 、 一 个 查询 引擎 
(Query Engine, QE) 和 一 个 分 布 式 推理 器 (Distributed Reasoner，DR)。 上 层 本 体 用 于 
捕获 通常 跨越 参与 机 构 所 在 领域 的 领域 知识 ， 而 领域 本 体 捕获 给 定 的 机 构 或 领域 的 知 
识 。 需 要 注意 的 是 ， 给 定 机 构 的 领域 本 体 将 受到 其 他 参与 机 构 的 域 本 体 的 保护 。 策 略 可 
以 在 上 层 本 体 或 任何 领域 本 体 中 被 捕获 ， 具 体 取决 于 它们 的 适用 范围 。 值 得 注意 的 是 ， 
给 定 机 构 的 领域 本 体 将 受到 其 他 参与 机 构 的 领域 本 体 的 保护 。 

上 层 本 体 的 设计 以 及 捕捉 参与 机 构 要 求 的 领域 本 体 是 一 个 重要 的 研究 领域 ， 是 本 体 
论 工 程 问题 的 重点 。 这 里 ， 将 使 用 基于 描述 逻辑 中 合适 的 OWL 本 地 语言 创建 本 体 。 描 
述 逻 辑 通常 是 一 阶 逻 辑 的 可 判定 部 分 ， 并 将 其 作为 提供 声音 形式 语义 的 基础 。 推 理 在 本 
体 论 中 代表 知识 ， 并 通过 使 用 现 有 的 优化 推理 算法 进行 。 查 询 应 答 将 利用 推理 算法 来 制 
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图 27.5 集中 式 CAISS + + (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 ;Khadilkar， 
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Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 2012, 

p. 1-26, © Springer, ISBN 978 -3 - 642 -30427 -9) 








定 和 回答 智能 查询 。 另外 ，OWL 中 的 策略 编码 将 确保 以 可 靠 的 方式 强制 执行 。 接 下 来 ， 
我 们 提出 在 得 克 萨 斯 大 学 达拉斯 分 校正 在 开展 的 一 个 研究 项 目 ， 项 目 重点 是 提供 一 个 总 
体 框架 ， 以 一 种 已 经 被 证 明 为 正确 的 方式 且 使 用 相同 的 底层 技术 执行 策略 。 这 项 工作 可 
以 用 于 建 模 和 执行 CAISS + + 中 的 安全 策略 。 项 目 中 的 实例 数据 ， 可 以 选择 几 种 可 用 的 
数据 存储 格式 ( 稍 后 讨论 ) QE 从 参与 机 构 接 收 查 询 、 解 析 查 询 ， 并 确定 计算 是 否 需要 
使 用 DR。 如 果 查 询 简 单 ， 并 且 不 需要 使 用 推理 器 ， 则 查询 引擎 将 通过 共享 知识 库 直接 
执行 查询 。 查 询 结 果 一 旦 出 来 ， 就 将 返回 给 查询 机 构 。 然 而 ， 如 果 查 询 是 复杂 的 ， 并 且 
需要 对 给 定数 据 进 行 推理 ， 则 查询 引擎 就 使 用 分 布 式 推理 器 来 计算 推论 ， 然 后 将 结果 返 
回 给 查询 机 构 。 分 布 式 DL 推理 器 与 传统 的 DL 推理 器 ， 在 使 用 Map/Reduce 框架 执行 云 
数据 存储 的 推理 能 力 方面 有 所 不 同 。 在 第 一 阶段 CAISS + + 的 初步 设计 过 程 中 ， 我 们 将 
使 用 LUBM 等 现 有 基准 ， 来 对 可 用 的 分 布 式 推理 器 进行 全 面 的 调查 研究 ( 见 本 章 参 考 
文献 [【GU005] ) 。 这 个 调查 的 目标 是 确定 我 们 是 否 可 以 使 用 现 有 的 任意 推理 器 ， 或 者 
是 否 需 要 构建 我 们 自己 的 分 布 式 推理 器 。 在 图 27.4 中 ， 机 构 被 表示 为 由 Web 浏览 
小 应 用 程序 和 HTML 组 成 的 堆栈 。 一 个 机 构 可 以 使 用 Web 浏览 器 将 查询 发 送 给 CAISS 
+ +， 它 是 由 查询 处 理 器 处 理 的 。 

集中 式 CAISS + + 与 CAISS 之 间 的 主要 区 别 在 于 : (DCAISS 将 使 用 RDF 对 安全 策 
略 进行 编码 ， 而 集中 式 CAISS + + 将 使 用 比 RDF 更 具 表 达 性 的 、 更 合适 的 OWL Fis 
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言 ， 从 而 更 好 地 捕获 安全 策略 ; QCAISS 中 的 SPARQL 查询 处 理 器 将 支持 SPARQL 表达 
性 的 有 限 子 集 ， 即 仅 提供 对 基本 图 形 模式 (Basic Graph Patterns, BGP) 的 支持 ， 而 集 
中 式 CAISS + + 中 的 SPARQL 查询 处 理 融 将 被 设计 为 支持 最 大 表达 能 力 的 SPARQL; 
CAISSE H ÉY Hadoop 存储 架构 仅 支 持 在 初始 化 步骤 期 间 的 数据 插入 。 但 是 ， 当 需要 
更 新 数据 时 ， 会 删除 整个 RDF 图 ， 并 在 其 中 搬入 一 个 新 的 数据 集 。 另 一 方面 ， 集 中 式 
CAISS + + 除了 文 持 以 前 的 功能 外 ， 还 为 用 户 打 开 了 Hadoop HDFS 的 附加 功能 。 此 功能 
允许 用 户 将 新 信息 附加 到 以 前 上 传 到 系统 的 数据 中 。 
27.2.2.4 分 散 式 CAISS + + 

图 27. 6 说 明了 在 分 散 式 CAISS + + 中 相互 作用 的 两 个 机 构 。 分 散 式 CAISS + + 包括 
两 个 部 分 ， 即 全 局 CAISS + + 和 本 地 CAISS + + 。 全 局 CAISS + + 由 共享 云 存储 组 成 ， 
参与 机 构 仅 使 用 其 存储 的 各 自 的 领域 本 体 而 不 是 集中 式 CAISS + + 的 实例 数据 。 这 和 集 
中 CAISS + + 不 同 。 需 注意 到 领域 本 体 对 不 同 组 织 可 能 是 敏感 的 ， 因 此 ，CAISS + + 将 
使 用 自身 领域 本 体 来 保护 参与 机 构 不 去 访问 其 他 领域 本 体 。 当 一 个 机 构 的 用 户 查 询 
CAISS + + 数据 存储 ， 全 局 CAISS + + 使 用 两 个 步骤 处 理 查 询 。 第 一 步 ， 它 执行 检查 ， 
来 验证 用 户 是 否 被 授权 进行 查询 中 的 指定 行为 。 如 果 第 一 步 结 果 验 证 用 户 为 授权 用 户 ， 
然后 继续 进行 查询 处 理 的 第 二 步 。 在 第 二 步 中 ， 全 局 CAISS + + 分 配 真 正 地 参与 机 构 进 
行 查询 ， 查 询 由 参与 机 构 所 在 的 本 地 CAISS + + 处理。 计算 结果 随后 返回 到 全 局 CAISS 
+ + ， 并 将 最 终 汇 总 结果 返回 给 用 户 。 如 果 数 据 需 要 跨 域 查询 ， 查 询 处 理 的 第 二 步 就 可 
能 涉及 查询 分 割 。 在 这 种 情况 下 ,来自 不 同 机 构 (他 们 的 本 地 CAISS + + ) 的 子 查 询 结 
果 需 要 组 合 进行 查询 处 理 。 一 旦 合并 结果 ， 并 计算 最 终结 果 ， 再 将 结果 返回 给 查询 机 构 
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图 27.6 分 散 式 CAISS + + (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. 
和 Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence and 
Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 
2012, p. 1 -26, © Springer, ISBN 978 -3 - 642 - 30427 -9) 
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QE 至 计算 开发 与 安全 
的 用 户 。 该 图 显示 出 了 具有 两 个 堆栈 的 机 构 ， 其 中 一 个 对 应 于 本 地 CAISS + + ， 男 一 个 
对 应 于 Web 浏览 器 、 小 应 用 程序 和 HTML， 由 机 构 用 于 查询 全 局 CAISS + + 。 表 27.1 


显示 了 集中 式 CAISS + + 方法 的 优 缺 点 ， 而 表 27.2 显示 了 分 散 式 CAISS + + 方法 的 优 
缺点 。 








表 27.1 集中 式 CAISS + + 优 缺 点 
























































优点 缺点 
NM 难以 更 新 数据 , 方法 昂贵 ， 因 为 数据 需要 在 每 次 更 新 或 一 组 更 新 时 迁移 到 中 央 存 
方法 简单 
储 器 
实施 简单 导致 数据 重复 
查询 简单 如 果 数 据 是 可 用 的 不 同 格式 ， 需 要 转化 成 RDF 格式 
表 27.2 分 散 式 CAISS + + 的 优 缺 点 
优点 缺点 
没有 重复 数据 查询 过 程 复 杂 
扩展 性 和 灵活 性 好 实施 困难 
高 效 可 能 需要 查询 重 写 和 查询 分 逢 








27.2.2.5 混合 CAISS+ + 

图 27.7 给 出 了 混合 CAISS + + 的 概览 ， 它 结合 了 集中 式 CAISS + + 以 及 分 散 式 
CAISS + + 的 优势 。 混 合式 CAISS + + 架构 如 图 27.8 所 示 。 这 是 一 个 灵活 的 设计 方案 
因为 参与 机 构 的 用 户 可 以 自由 选择 集中 式 CAISS + + 或 分 散 式 CAISS + +。 混 合 CAISS 
+ + 由 全 局 CAISS + + 和 位 于 每 个 参与 机 构 的 一 组 本 地 CASS + + 组 成 。 全 局 CAISS 
+ + 由 共享 云 存 储 组 成 ， 由 参与 机 构 用 于 存储 他 们 想 与 其 他 机 构 共 享 的 数据 。 
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图 27.7 混合 CAISS + + 概览 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : Khadilkar, V. , 

Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L., #H Husain, M. F. Media from 

Lecture Notes in Computer Science, Proceedings of Intelligence and Security Informatics — Pacific Asia Workshop, 
PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 2012, p.1—26, © Springer, ISBN 978 -3 -642 —30427 -9) 
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图 27.8 混合 CAISS + + 架构 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L., 
和 Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence 
and Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 
2012, p. 1 -26, © Springer, ISBN 978 -3 - 642 - 30427 -9) 

一 个 机 构 的 本 地 CAISS + + 用 来 接收 和 处 理 位 于 本 地 机 构 实例 信息 的 联合 查询 。 一 
个 参与 组 由 来 自 几 个 机 构 的 用 户 组 成 ， 他 们 希望 彼此 能 分 享 信息 。 小 组 成 员 决 定 采取 集 
中 或 分 散 的 方法 。 如 果 需 要 ， 另 外 的 用 户 可 以 在 稍 后 的 时 间 点 加 入 小 组 。 混 合 CAISS + 
+ 将 被 设计 同时 支持 一 系列 参与 组 。 此 外 ， 一 个 用 户 可 以 同时 属于 多 个 参与 组 。 我 们 描 
述 一 些 用 例 场景 来 说 明 这 些 操 作 。 

1) 第 一 个 案例 对 应 的 场景 ， 一 组 用 户 想 要 安全 地 分 享 彼此 的 信息 而 选择 一 个 集中 
式 方 法 。 假 设 机 构 1 中 的 用 户 想 要 和 机 构 2 中 的 用 户 共享 信息 ， 反 之 亦 然 ， 然 后 双方 机 
构 在 全 局 CAISS + + 共享 云 上 存储 他 们 的 知识 库 ， 包 括 领 域 本 体 和 实例 数据 。 集 中 式 
CAISS + + 方法 使 参与 机 构 间 相互 信任 地 使 用 中 心 云 作为 存储 。 随 后 ， 信 息 共 享 在 集中 
IÑ CAISS + + 中 进行 。 

2) 第 二 种 对 应 情况 是 一 组 用 户 选择 分 散 式 方法 。 例 如 ， 机 构 3、4、5 想 要 互相 共享 数 
据 并 且 相 互 选择 分 散 式 方法 。 所 有 3 个 机 构 在 中 心 云 存储 上 存储 各 自 的 域 本 体 ， 并 且 这 些 信 
息 只 能 被 小 组 成 员 访问 。 随 后 的 信息 共享 过 程 按照 分 散 式 CAISS + + 方法 的 方式 进行 。 

3) 第 三 种 对 应 于 一 个 机 构 的 用 户 属于 多 个 参与 组 的 场景 ， 其 中 一 些 选 择 集中 式 方 
法 ， 而 另 一 些 则 选择 分 散 式 方法 。 由 于 一 部 分 用 户 是 使 用 集中 式 方 法 进行 共享 的 组 ， 所 
以 他 /她 需要 通过 将 他 /她 的 数据 发 送 到 中 央 云 存储 来 使 他 /她 的 数据 可 用 于 该 组 。 此 外 ， 
由 于 另 一 部 分 用 户 是 使 用 分 散 式 方法 进行 共享 的 组 ， 所 以 他 /她 需要 在 他 /她 所 在 的 机 构 
的 本 地 CAISS + + 的 帮助 下 回应 联合 查询 。 

表 27.3 显示 了 不 同方 法 之 间 的 权衡 ， 这 将 使 用 户 根据 他 们 应 用 的 需要 ， 来 选择 合 
适 的 AIS 方法 。 接 下 来 我们 将 描述 云 存储 机 制 的 细节 ， 主 要 利用 Hadoop 来 存储 各 机 
构 的 知识 基础 。 然 后 ， 讨 论 云 存储 上 分 布 式 SPARQL 查询 处 理 的 细节 。 
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表 27.3 3 种 基于 功能 Hadoop 存储 体系 结构 的 比较 
































功能 集中 式 CAISS + + 分 散 式 CAISS + + 混合 CAISS + + 
无 数据 重复 x v 可 能 
灵活 性 x x V 
扩展 性 X v v 
高 效 性 V V V 
简洁 性 - 无 查询 重 写 V x x 
可 信 的 中 心 云 数据 存储 V x x 











如 图 27.9 所 示 ， 我 们 介绍 了 基于 Hadoop 的 RDF 存储 和 检索 框架 的 架构 概况 。 我 
们 使 用 “存储 ”的 概念 为 存储 在 基础 HDFS 中 的 RDF 图 ， 提 供 数据 加 载 和 查询 功能 。 
一 个 存储 代表 一 个 RDF 数据 集 ， 因 此 可 以 包含 多 个 RDF 图 ,每 个 RDF 图 都 有 自己 独立 
的 布局 。 然 后 将 RDF 图 上 的 所 有 操作 隐 式 地 转换 为 底层 布局 的 操作 ， 包 括 : 


Hadoop 存 储 


连接 


查询 引擎 布局 





布局 1- 垂直 划分 


图 27.9 CAISS + + 使 用 的 Hadoop 存储 体系 结构 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 
内 容 来 自 Science + Busimess Media; Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, 
M. , Hamlen, K. W. , Khan, L. ， 和 Husain, M. F. Media from Lecture Notes in Computer Science, 
Proceedings of Intelligence and Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala 
Lumpur, Malaysia, 7299, 2012, p.1 -26，@ Springer, ISBN 978 -3 —642 -30427 -9) 


WB 布局 格式 器 : 执行 格式 化 布局 的 功能 ， 它 是 删除 RDF 图 中 所 有 三 元 组 的 过 程 ， 
同时 又 保留 用 于 存储 图 形 的 目录 结构 。 

E 加 载 器 : 将 三 元 组 加 载 到 布局 。 

E 查询 引擎 ， 允许 用 户 使 用 SPARQL 查询 一 个 布局 。 由 于 我 们 的 框架 运行 在 底层 
HDFS， 所 以 在 布局 上 的 查询 机 制 ， 包 括 将 一 个 SPARQL 查询 转换 成 Map/Reduce 作业 的 
一 个 可 能 的 管道 ， 并 在 布局 上 执行 这 个 管道 。 

B 连接 : 维护 和 底层 HDFS 的 必要 的 连接 和 配置 。 

图 配置 : 维护 配置 信息 ， 比 如 构成 一 个 存储 的 每 个 RDF 图 的 名 字 。 

由 于 RDF 数据 作为 我 们 存储 架构 的 一 部 分 ， 将 存储 在 不 同 的 文件 夹 中 ， 因 此 对 这 
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些 文件 夹 和 文件 ， 需 要 采用 某 些 命 名 规则 。 
27.2.2.6 命名 规则 

在 我 们 的 框架 中 ， 一 个 Hadoop 存储 可 以 由 儿 个 不 同 的 RDF 图 组 成 。 因 此 我 们 在 
HDFS 中 会 为 每 一 个 Hadoop 存储 创建 一 个 单独 的 文件 夹 。 此 文件 夹 的 名 称 将 对 应 于 给 
定 存储 选择 的 名 称 。 此 外 ， 根 据 在 我 们 的 框架 中 被 分 割 成 几 个 文件 所 选择 的 存储 来 布局 
RDF 图 。 因 此 ， 一 个 单独 的 文件 夹 在 HDFS 中 对 每 个 不 同 的 RDF 图 进行 创建 。 该 文件 
夹 的 名 称 被 定义 为 默认 RDF 图 的 “默认 值 ”， 但 是 对 于 一 个 已 命名 的 RDF 图 ， 图 的 
URI 将 作为 文件 夹 的 名 称 。 在 我 们 的 框架 中 使 用 抽象 的 存储 ， 原 因 是 这 将 简化 属于 各 机 
构 的 数据 管理 问题 。 我 们 的 框架 支持 两 种 布局 ， 这 些 布局 可 以 使 用 不 同 数量 的 HDFS X 
件 来 存储 RDF 数据 
27.2.2.7 垂直 分 区 布局 

图 27. 10 显示 了 垂直 分 区 布局 的 存储 模式 。 对 于 RDF 图 中 包含 的 每 个 唯一 的 谓词 ， 
此 布局 将 在 基础 HDFS 中 ， 使 用 谓词 名 称 作为 文件 名 来 创建 一 个 单独 的 文件 。 需 要 注意 
的 是 ， 只 有 名 称 中 使 用 谓词 URI (通用 资源 标识 符 ) 的 本 地 名 称 部 分 ， 并 且 文 件 名 和 谓 
词 URI 之 间 存 在 单独 的 映射 。 对 于 一 个 给 定 谓词 的 文件 ， 存 在 一 行 对 应 每 个 包含 该 谓 



































































































































词 的 三 元 组 。 该 行 存储 构成 三 元 组 的 主体 和 客体 。 此 模式 将 导致 存储 空间 会 明显 地 减 
少 ， 因 为 谓词 名 称 移动 到 文件 名 称 ， 这 将 完全 消除 该 谓词 值 的 存储 。 但 是 ，URI 或 文字 
值 的 多 次 出 现 ， 将 被 多 次 存储 在 所 有 文件 以 及 一 个 文件 中 。 另 外 ，SPARQL 查询 可 能 需 
要 查找 多 个 文件 ， 来 确保 一 个 完整 的 结果 返回 给 用 户 。 例 如 ， 一 个 查询 需要 查找 属于 一 
个 特定 主体 或 客体 的 所 有 三 元 组 。 

布局 1 一 垂直 分 区 





























图 27. 10 垂直 分 区 布局 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : Khadilkar, V. , 
Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. 和 Husain, 
M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence and Security 
Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 2012, p. 1-26, 
© Springer, ISBN 978 -3 - 642 -30427 -9) 











27.2.2.8 混合 布局 

图 27. 11 给 出 了 混合 布局 的 存储 模式 ， 此 布局 是 垂直 分 区 布局 的 扩展 ， 由 于 除了 为 
RDF 图 中 每 个 独特 的 谓词 创建 单独 的 文件 ， 它 也 创建 了 一 个 SPO (主体 、 谓 词 、 客 体 ) 
格式 的 包含 所 有 三 元 组 的 单独 三 元 组 文件 。 此 文件 的 一 个 优点 是 它 可 以 直接 给 出 属于 某 
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一 特定 主体 或 客体 的 所 有 三 元 组 。 这 样 的 搜索 操作 需要 在 垂直 分 区 布局 中 扫描 所 有 文 
件 。 这 种 布局 的 存储 空间 效率 不 如 垂直 分 区 布局 好 ， 这 是 因为 有 附加 的 三 元 组 文件 。 但 
是 ， 对 于 一 个 SPARQL 查询 ， 要 发 现 属于 特定 主体 或 客体 的 所 有 三 元 组 来 说 ， 这 种 布局 
是 更 有 效 的 。 
































图 27.11 混合 布局 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : Khadilkar, V. , 
Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. 和 Husain, M. F. 
Media from Lecture Notes in Computer Science, Proceedings of Intelligence and Security 
Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 

7299, 2012, p.1 -26, © Springer, ISBN 978 -3 -642 -30427 -9) 


27.2.2.9 SPARQL 的 分 布 式 处 理 

CAISS + + 中 的 查询 处 理 包含 几 个 步骤 (ULE 27.12) 。 第 一 步 是 查询 解析 和 翻译 ， 
其 中 首先 解析 给 定 的 SPARQL 查询 ， 以 验证 语法 正确 性 ， 然 后 构建 与 输入 查询 相对 应 的 
解析 树 。 解 析 树 再 转化 成 SPARQL 代数 表达 式 。 由 于 给 定 的 SPARQL 查询 可 以 具有 多 个 
等 效 的 SPARQL 代数 表达 式 ， 所 以 ,我 们 使 用 如 何 评估 表达 式 中 每 个 操作 的 说 明 ， 来 注 
释 每 个 这 样 的 表达 式 。 这 种 注释 的 SPARQL 代数 表达 式 与 作为 优化 器 输入 的 查询 评估 计 
划 相 对 应 。 优 化 器 选择 最 小 化 查询 评估 成 本 的 查询 计划 。 要 优化 查询 ， 优 化 器 就 必须 知 
道 每 个 操作 的 成 本 。 要 计算 每 个 操作 的 成 本 ,优化 器 使 用 存储 与 RDF 数据 相关 联 的 统 
计 信 息 的 元 存储 。 根 据 Map/ Reduce 作业 的 数量 ,或 作为 查询 执行 的 一 部 分 进行 访问 的 
三 元 组 的 数量 ， 可 以 测定 给 出 的 查询 评估 计划 的 开销 。 一 旦 选择 了 查询 计划 ， 将 使 用 该 
计划 评估 查询 ， 并 输出 查询 结果 。 由 于 我 们 使 用 以 云 为 中 心 的 框架 来 存储 RDF 数据 ， 
所 以 评估 引擎 需要 将 SPARQL 代数 运算 符 转 换 为 底层 存储 布局 上 的 相应 Map/Reduce TE 
业 。 因 此 , 在 CAISS + + 中 ,我 们 将 为 每 个 SPARQL 代数 运算 符 实现 Map/Reduce 作业 。 
另外 ,评估 引擎 使 用 分 布 式 推理 器 来 计算 查询 评估 所 需 的 推论 。 
27.2.2.10 ”框架 集成 

我 们 概述 的 组 件 是 CAISS + + 中 的 一 部 分 ， 这些 组 件 需 要 与 其 他 组 件 结合 使 用 。 此 
外 ， 这 种 集成 过 程 取决 于 在 CAISS + + 提供 的 3 种 可 能 的 设计 方案 中 ， 用 户 所 进行 的 选 
择 ， 即 集中 式 CAISS + + 、 分 散 式 CAISS + + 或 混合 CAISS + + 。 目 前 已 经 提交 的 各 种 
CAISS + + 的 集成 需要 考虑 到 几 个 问题 。 首 先 ， 我 们 需要 确保 我 们 的 本 体 工 程 实 施 的 过 
程 中 ， 在 捕获 各 个 组 织 的 需求 方面 取得 成 功 ， 而 且 本 体 可 以 存储 在 Hadoop 存储 架构 使 
用 的 存储 模式 中 。 其 次 ， 我 们 需要 确保 分 布 式 SPARQL 查询 处 理 器 ， 能 够 通过 底层 的 
RDF 存储 来 有 效 地 评估 查询 ( 即 用 户 生 成 的 SPARQL 查询 以 及 评估 策略 的 SPARQL Æ 
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图 27.12 CAISS + + 中 的 SPARQL 分 布 式 处 理 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 
内 容 来 自 : Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , 
Khan, L. 和 Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of 
Intelligence and Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 
7299, 2012, p.1 -26, © Springer, ISBN 978 -3 -642 - 30427 -9) 


询 ) 。 最 后 ， 我 们 需要 对 CAISS + + 进行 性 能 评估 ， 以 验证 其 符合 各 参与 机 构 的 性 能 要 
R, 并 且 与 CAISS 相 比 会 带 来 明显 的 性 能 优势 。 
27.2.2.11 策略 规范 和 实施 
CAISS + + 的 用 户 可 以 使 用 他 们 所 选择 的 一 种 语言 (例如 XACML, RDF, REI, 
等 )， 来 指定 他 们 的 信息 共享 策略 。 这 些 策略 将 使 用 现 有 或 定制 的 转换 器 ， 来 转换 成 合 
适 的 OWL 子 语言 。 我 们 将 为 CASS 扩展 我 们 的 策略 引擎 ， 来 处 理 OWL 特定 的 策略 。 此 
外 对 于 RDF 策略 ， 我 们 目前 的 策略 引擎 可 以 处 理 OWL 中 的 策略 ， 其 实现 是 基于 角色 的 
访问 控制 、 推 理 控制 和 社交 网 络 分 析 。 


27.2.3 形式 策略 分 析 


我 们 的 框架 适用 于 各 种 关键 任务 、 高 安全 需求 的 应 用 程序 ， 这 些 应 用 程序 可 能 跨越 

多 个 不 相互 信任 的 组 织 。 为 了 在 这 种 环境 下 提供 最 大 的 安全 保障 ， 对 系统 的 正确 性 及 其 
执行 的 策略 ， 建 立 强 有 力 的 保障 是 非常 重要 的 。 最 后 ， 为 了 构建 形式 的 、 重 要 系统 属性 
的 机 器 可 检查 的 证 明 ， 我 们 审查 了 基础 设施 的 开发 过 程 ， 并 对 我 们 的 系统 进行 了 策略 分 
析 。 虽 然 机 器 可 检查 的 证 明 对 于 许多 大 型 软件 系统 来 说 可 能 非常 困难 和 耗 时 ， 但 是 我 们 
选择 的 SPARQL、RDF 和 OWL 作为 查询 、 本 体 和 策略 语言 ， 为 在 逻辑 编程 环境 中 从 容 
地 给 出 此 类 证 明 ， 提 供 了 难得 的 机 会 。 我 们 将 在 Prolog 中 将 策略 、 策 略 重 写 算 法 和 安全 
属性 编码 作为 基于 规则 的 逻辑 推导 系统 ， 并 应 用 模型 检查 和 定理 验证 系统 (如 ACL) 
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来 生成 机 器 可 检查 的 证 明 。 我 们 打算 在 模型 中 考虑 的 属性 包括 健壮 性 、 透 明 性 、 一 致 性 
和 完整 性 。 我 们 形式 策略 分 析 的 结果 将 推动 CAISS + + 的 详细 设计 和 实施 。 据 我 们 所 
知 ， 以 前 的 工作 都 没有 重点 关注 过 SPARQL、RDF 和 OWL 的 形式 策略 分 析 。 我 们 在 相 
关 工 作 中 ， 将 讨论 对 岁入 式 参 考 监 视 器 进行 形式 策略 分 析 的 广泛 研究 。 


27.2.4 实施 方法 


我 们 正在 用 Java 对 CAISS 进行 实现 ， 并 且 基 于 一 个 灵活 的 设计 ， 我 们 可 以 在 其 中 
插入 和 播放 多 个 组 件 。 服 务 提供 商 和 /或 用 户 具 有 使 用 SPARQL 查询 处 理 器 的 灵活 性 ， 
可 以 像 基 于 RDF 的 策略 引 警 一样， 当 作 单独 组 件 或 组 合 它们 。 用 于 CASS 的 开源 组 件 
将 包括 Pellet 推理 器 以 及 我 们 的 内 部 工具 ， 例 如 Hadoop / Map/Reduce 框架 上 的 SPARQL 
查询 处 理 需 和 以 云 为 中 心 的 RDF 策略 引擎 。CAISS 将 允许 我 们 在 基于 云 的 框架 上 展示 基 
本 的 AIS 方案 。 

对 于 CAISS + + 的 设计 ， 我 们 将 在 此 使 用 Java 作为 编程 语言 。 在 实施 本 体 论 工 程 的 
过 程 中 ， 我 们 将 使 用 Protege 作为 本 体 编 辑 器 ， 其 中 包括 设计 域 本 体 以 及 上 层 本 体 。 我 
们 也 将 评估 几 个 现 有 的 分 布 式 推理 算法 ， 比 如 WebPIE 和 QueryPIE ， 来 确定 满足 机 构 要 
求 的 最 佳 算法 。 被 挑选 的 算法 将 在 基于 PWL 的 安全 策略 中 执行 推理 。 此 外 ，Hadoop ff 
储 架 构 的 设计 将 基于 Jena 的 SPARQL 数据 库 (SPARQL Database, SDB) 架构 ， 并 将 具 
有 Jena SDB 可 用 的 一 些 功 能 。 SPARQL 查询 引擎 还 将 使 用 Java 编写 的 代码 。 该 代码 将 包 
含 多 个 模块 ， 包 括 查 询 解析 和 翻译 ， 查 询 优化 和 查询 执行 。 查 询 执行 模块 将 由 用 于 
SPARQL 的 各 种 运算 符 的 Map/Reduce 作业 组 成 。 最 后 ， 我 们 基于 Web 的 用 户 接 口 将 使 
用 如 JBoss, EJB, JSF 等 几 个 组 件 。 


27.3 相关 工作 


本 节 将 首先 提供 与 项 目 直接 相关 的 研究 概况 ， 然 后 讨论 整体 相关 工作 。 本 节 还 将 讨 
论 产 品 或 者 技术 竞争 。 


27.3.1 我 们 的 相关 研究 


需 注 意 到 ， 我 们 很 多 的 相关 研究 已 在 第 13 章 、 第 22 章 、 第 23 章 中 讨论 过 。 我 们 
总 结 这 些 研究 并 讨论 其 他 相关 研究 。 
27.3.1.1 云 中 的 数据 存储 和 检索 安全 

我 们 构建 了 一 个 基于 Web 的 应 用 程序 ， 它 结合 了 现 有 的 云 计 算 技 术 ， 如 Hadoop 、 
开放 源码 分 布 式 系统 、 基 于 Hadoop 架构 的 Hive 数据 仓库 基础 架构 、 基 于 XACML 策略 
的 安全 机 制 ， 这 使 协作 机 构 能 够 安全 地 存储 和 检索 大 量 数据 ( 见 本 章 参 考 文献 
[THUR10] 、[HUSA11] 、[ UTD1] )。 图 27.13 显示 了 我 们 系统 的 体系 结构 。 我 们 使 用 
Hive 层 和 Hadoop 提供 的 服务 ， 包 括 构成 Hadoop 存储 层 的 Hadoop 分 布 式 文件 系统 
(HDFS) 层 ， 并 允许 在 一 组 节点 上 存储 数据 块 。 我 们 实现 的 层 包 括 Web 应 用 层 、ZQL 
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解析 器 层 、XACML 策略 层 和 查询 重 写 层 。Web 应 用 层 是 我 们 系统 向 用 户 提供 访问 云 基 
础 架构 的 唯一 接口 。ZQL 解析 器 ( 见 本 章 参 考 文献 [ZQL]) 层 将 用 户 提 交 的 任何 查询 
作为 输入 ， 如 果 查 询 被 成 功 解析 ， 则 会 继续 执行 XACML 策略 评 佑 器。 否则， 向 用 户 返 
回 错误 消息 。XACML 策略 层 用 于 构建 ( XACML 策略 构建 器 ) 和 评估 (XACML 策略 评 
fh) XACML 策略 。 基 本 查询 重 写 层 ， 可 以 重 写 用 户 输入 的 SQL 查询 。Hive 层 用 于 管理 
存储 在 基础 Hadoop HDFS ( 见 本 章 参考 文献 [THUS09]) 中 的 关系 数据 。 另 外 ， 我 们 还 
在 混合 云 中 设计 并 实现 了 安全 存储 和 查询 处 理 ( 见 本 章 参考 文献 [KHAD11] ) 。 
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图 27.13 基于 HIVE 保证 云 查询 处 理 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. , Khan, L. 











和 Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence 
and Security Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 
2012, p. 1 -26, © Springer, ISBN 978 -3 -642 - 30427 -9) 


27.3.1.2 云 上 的 SPARQL 查询 处 理 安全 

我 们 已 经 开发 了 一 个 框架 ， 来 查询 存储 在 Hadoop 中 的 RDF 数据 ， 如 图 27. 14 所 示 。 
我 们 用 Pellet 推理 器 在 不 同 的 阶段 推理 。 我 们 也 使 用 与 Hadoop Map/Reduce 功能 相 结 合 
的 Pellet 库 进 行 实 时 查询 推理 。 我 们 的 RDF 查询 处 理由 两 个 主要 步骤 组 成 : 预 处 理 和 查 
询 优 化 和 执行 。 
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27.3.1.2.1 预 处 理 

要 对 RDF 数据 执行 SPARQL 查询 ， 要 先 执行 数据 预 处 理 步 又 ， 并 将 预 处 理 数 据 存 
储 在 HDFS 中 。 写 一 个 单独 的 Map/Reduce 任务 来 执行 ， 并 将 RDF / XML 数据 转换 为 
N - Triples， 同 时 也 是 为 了 前 绥 的 生成 。 这 里 的 存储 策略 是 基于 谓词 分 割 的 (〈 见 本 章 参 
考 文献 [HUSA111] ) 。 





数据 预 处 理 Map/Reduce 框 架 
N=-Triples 转 换 器 解析 器 


查询 验证 器 和 重 写 器 
前 级 生成 器 


Ce XACML PDP 
Backend 
基于 谓词 的 分 割 器 根据 策略 查询 重 写 


计划 生成 器 
基于 谓词 客体 分 制 器 
计划 执行 器 














图 27. 14 基于 SPARQL 的 云 查询 处 理 安全 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : 
Khadilkar, V. , Rachapalli, J. , Cadenhead, T. , Kantarcioglu, M. , Hamlen, K. W. Khan, L. 和 
Husain, M. F. Media from Lecture Notes in Computer Science, Proceedings of Intelligence and Security 
Informatics — Pacific Asia Workshop, PAISI 2012 , Kuala Lumpur, Malaysia, 7299, 2012, p. 1 -26, 

© Springer, ISBN 978 -3 -642 -30427 -9) 
27.3.1.2.2. 查询 执行 和 优化 
我 们 已 经 为 Hadoop 开发 了 一 个 SPARQL 查询 执行 和 优化 模块 。 由 于 我 们 的 存储 策 

略 是 基于 谓词 分 割 的 。 所 以 ,第 一 ,我 们 要 检查 查询 中 存在 的 谓词 。 第 二 ， 我 们 要 检查 

输入 文件 与 谓词 匹配 的 子 集 。 第 三 ， 通 常 在 SPARQL 查询 中 具有 许多 连接 ， 并 且 所 有 这 

些 连 接 可 能 无 法 在 单个 map — reduce 作业 中 执行 。 因 此 ， 我 们 已 经 开发 了 一 种 算法 ,来 

决定 每 种 查询 所 需 的 作业 数量 。 作 为 优化 的 一 部 分 ， 我们 采用 贪 梦 算法 和 基于 成 本 优化 

来 减少 查询 处 理 时间 。 我 们 还 开发 了 一 个 基于 XACML 的 集中 式 策 略 引擎 ， 将 在 云 上 执 

行 联合 RDF 查询 处 理 。 执 行 策略 的 细节 在 本 章 参 考 文献 [ HUSAII], 、 [KHALIO], 

[HAMLIOb] 中 给 出 。 

27.3.1.3 RDF 策略 引擎 

在 我 们 之 前 的 工作 中 〈 见 本 章 参考 文献 [CADE1la]) ， 已 经 为 RDF 数据 开发 了 一 

个 策略 引擎 来 处 理 基 于 RDF 的 访问 控制 策略 。 策 略 引擎 设计 具有 以 下 功能 : 可 扩展 性 、 

高 效 性 和 互 操 作 性 。 这 个 框架 ( 见 图 27.15) 可 以 用 来 执行 各 种 策略 ， 包 括 访问 控制 策 

略 和 修订 策略 ， 它 还 可 以 用 作 测 试 平台 ， 评 估 针 对 RDF 数据 的 不 同 策略 集 ， 并 可 以 
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形 方式 查看 结果 。 我 们 的 框架 提出 了 接受 高 层次 策略 的 接口 ， 然 后 转换 成 所 需 的 格式 。 


它 根据 用 户 输入 的 查询 ， 返 回 一 组 经 过 用 户 定义 
的 策略 约束 修整 的 回复 。 这 个 框架 是 使 用 模块 化 | 而 接口 应 用 


方法 构建 的 ， 因 此 它 是 非常 灵活 的 ， 因 为 大 多 数 


模块 可 以 被 另 一 个 模块 扩展 或 替换 。 例 如 ， 实 施 
自主 访问 控制 ( Discretionary Access Control, RDE 策 略 引擎 RDF 策 略 


DAC) 的 策略 模块 ， 可 以 被 RBAC BEL SE ae 


换 ， 或 者 我 们 可 以 决定 执行 基于 广义 修正 模型 的 [ me ; 
所 有 约束 。 应 该 注意 的 是 ， 我 们 的 策略 引擎 还 处 
理 OWL 中 指定 的 基于 角色 的 访问 控制 策略 
SWRL ( 见 本 章 参 考 文献 [CADE10] ) 。 另 外 ， 它 图 27.15 RDF 策略 引擎 
处 理 OWL 中 指定 的 某 些 策 略 以 进行 推理 控制 ， 例 如 一 个 基于 关联 的 策略 ， 访 问 实体 集 
合 被 拒绝 并 有 旦 人 逻辑 策略 AGS Bo WREX B 的 访问 被 拒绝 ,那么 对 A 的 访问 也 应 被 拒 
绝 ( 见 本 章 参 考 文献 [CADE10] 、[ CADE11b] [ CARM09 ] ) 。 我 们 策略 引擎 的 这 种 功 
能 ， 将 在 我 们 设计 和 实现 的 CAISS + + 中 有 用 ， 其 中 的 信息 也 将 在 多 个 云 中 共享 。 
27.3.1.4 ASI 原型 

在 UTD， 我 们 已 经 为 AIS 开发 了 多 个 系统 。 特 别 的 ， 我们 开发 了 一 个 基于 XACML 
的 策略 引擎 ， 它 在 关系 数据 库 之 上 运行 ， 并且 展示 了 医学 数据 的 共享 (模拟) ( 见 本 章 
参考 文献 [THUR08 ] ) 。 在 这 种 实验 中 ， 我 们 指定 了 XACML 中 的 策略 ， 并 且 将 数据 存 
储 在 多 个 Oracle 数据 库 中 。 当 一 个 组 织 向 男 一 个 组 织 请 求 数据 时 ， 会 对 这 些 策略 进行 检 
查 并 授权 数据 的 发 布 。 另 外 ， 我 们 也 在 共享 信息 时 ， 对 执行 策略 的 数据 量 进行 了 模拟 研 
究 。 我 们 还 对 基于 激励 的 信息 共享 ， 进 行 了 模拟 研究 〈 见 本 章 参 考 文献 [ KANT10 ] ) 。 
此 外 ,我们 已 经 在 信息 共享 方案 中 ,检查 了 基于 风险 的 访问 控制 〈( 见 本 章 参 考 文献 
[CELIO7]) 。 除 了 访问 控制 策略 ， 我 们 还 指定 了 不 同类 型 的 策略 ， 包 括 需要 共享 的 策略 
和 信任 策略 (例如 A AB 共享 数据 ，B 不 与 C 共享 数据 ) 。 需 要 注意 的 是 ，9711 的 委员 
会 报告 要 求 从 更 严格 的 需求 获知 转移 到 限制 性 较 少 的 需要 共享 策略 。 这 些 策略 是 支持 有 
X AIS 职责 规范 的 关键 。 我 们 在 附录 D 中 讨论 了 关于 AIS 的 工作 。 
27.3.1.5 形式 策略 分 析 

通过 将 高 级 别 安全 策略 规范 和 系统 模型 ， 降 低 到 其 二 进 制 实现 的 符号 和 操作 语义 的 
级 别 ， 我 们 之 前 的 工作 ,已 经 开发 出 机 器 可 认证 的 安全 实施 各 种 复杂 软件 系统 的 形式 化 
机 制 ， 包 括 在 .NET ( 见 本 章 参考 文献 [HAMLO6b ] ) ActionScript ( 见 本 章 参考 文献 
[SRID10]) Java ( 见 本 章 参 考 文献 [JONE10]) 和 本 机 代码 ( 见 本 章 参 考 文献 
[HAMLIOb]) 实现 的 各 种 系统 。 在 二 进 制 级 别 工 作 中 提供 了 极 高 的 形式 保证 ， 因 为 它 
允许 生成 任务 关键 软件 组 件 的 工具 链 来 鉴别 不 信任 。 由 链 产生 的 三 进 制 码 可 以 直接 认 
证 。 这 种 策略 对 于 CAISS + + 来 说 非常 出 色 ， 因 为 XACML 和 OWL 等 数据 安全 性 规范 
语言 ， 借 助 识别 XML 的 系统 API， 轻 松 地 转换 为 字 节 码 语言 的 二 进 制 形式 ， 比 如 Java 
字 节 码 语言 。 我 们 过 去 的 工作 已 经 应 用 了 二 进 制 检测 (KARE Se aE) 和 二 
进 制 检查 ( 见 本 章 参 考 文献 [HAMLO6b] ) 与 模型 检查 ( 见 本 章 参考 文献 [SRID10 ] ) 
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的 结合 ， 并 且 使 用 自动 化 定理 证 明 (例如 ,通过 ACL) 以 实现 在 这 种 域 中 二 进 制 软件 
的 全 自动 机 器 认证 。 


27.3.2 总 体 相关 研究 


虽然 现在 有 一 些 相关 的 努力 ， 但 是 没有 一 个 为 云 中 使 用 AS 提供 解决 方案 ， 也 没有 
实施 这 样 的 形式 策略 分 析 。 
27.3.2.1 云 中 的 数据 存储 和 检索 安全 

云 的 安全 性 引起 了 最 新 关注 ( 见 本 章 参考 文献 [TALB09 ] ) 。 我 们 已 经 报告 了 在 基 
础 设施 层面 上 实施 的 一 些 成 就 ( 见 本 章 参 考 文献 [OMAL09])。 这 样 的 开发 成 就 是 保护 
云 基 础 设施 的 重要 一 步 , 但 只 是 在 开始 阶段 。 我 们 系统 的 目标 是 在 Hadoop ( 见 本 章 参 考 
文献 [UTD1]) 的 安全 性 之 上 添加 另 一 层 安 全 性 。 一 旦 Hadoop 的 安全 性 变 得 强大 ， 便 
会 加 强 我 们 系统 的 有 效 性 。 亚 马 逊 和 微软 已 经 为 云 计 算 (AMAZO9) ( 见 本 章 参 考 文献 
[MARS10]) 进行 了 类 似 的 工作 。 然 而 ， 这 项 工作 属于 公有 领域 ， 而 我 们 的 系统 是 专 为 
私有 云 基础 设施 而 设计 的 。 这 个 区 别 因素 使 得 我 们 的 基础 设施 要 “信任 ”公共 基础 设 
施 ， 数 据 就 必须 以 加 密 格式 存储 。 
27.3.2.2 SPARQL 查询 处 理 器 

据 报 道 在 SPARQL 查询 处 理 方面 目前 已 经 有 了 些许 成 就 。 这 些 包 括 BioMANTA (I 
本 章 参考 文献 [BIOMII]) 和 SHPRD ( 见 本 章 参 考 文献 [SHPR11 ] ) BioMANTA 建议 
“JE RDF 分 子 〈 见 本 章 参 考 文献 [DING05] ) ， 并 实施 基于 Map/Reduce 的 分 子 存储 。 
他 们 使 用 Map/ Reduce 来 回答 查询 ， 并 已 经 查询 了 最 多 400 万 的 三 元 组 。 我 们 的 工作 在 
以 下 方面 有 所 不 同 : 首先 ， 我 们 查询 了 10 亿 个 三 元 组 。 其 次 ， 为 了 提高 RDF 数据 的 查 
询 执行 性 能 ， 我 们 设计 了 一 个 存储 模式 。 据 我 们 所 知 ， 我 们 是 第 一 个 在 HDFS 中 提出 
RDF 数据 的 存储 模式 的 ， 并 使 用 Map/ Reduce 作业 确定 算法 来 回答 一 个 SPAEQL 查询 。 
SHPRD 是 使 用 Hadoop Cloudera 分 布 式 的 RDF 三 元 组 存储 。 该 项 目 显示 的 初步 结果 表明 
了 Hadoop 具有 提高 RDF 数据 集 可 扩展 性 的 能 力 。 但 是 ，SHPRD 仅仅 使 用 三 元 组 存储 模 
式 来 存储 数据 。 它 没有 查询 规划 或 重新 排序 ， 而 且 它 的 查询 处 理 器 不 会 最 小 化 Hadoop 
作业 的 数量 。 另 外 ， 在 安全 策略 上 也 没有 一 项 成 就 。 
27.3.2.3 基于 RDF 的 策略 引擎 

目前 已 有 针对 RDF 存储 的 执行 策略 的 相关 研究 。 这 些 研 究 包 括 本 章 参 考 文献 
[CARM04] 中 提 到 的 工作 ， 使 用 RDF 进行 策略 规范 和 实现 。 另 外 ， 策 略 通常 在 RDF 中 
编写 。 在 本 章 参考 文献 [JAIN06] 中 ,作者 对 RDF 提出 了 一 个 访问 控制 模型 。 他 们 的 
模型 是 基于 RDF 数据 语义 的 ， 并 且 结 合 RDF 和 RDF 模式 (RDF Schema, RDFS) 的 需 
求 。 在 这 里 ， 在 资源 层 提供 保护 ， 并 为 其 框架 增加 了 粒度 。 在 RDE/OWL 上 的 其 他 框架 
执行 策略 包括 本 章 参 考 文献 [USZ004] 、[KAGA02 ] 。 本 章 参 考 文献 【USZ004] 描述 
了 KAoS, 一 种 使 用 OWL 的 策略 和 域 服 务 的 框架 ， 用 来 表示 策略 和 域 。 本 章 参 考 文献 
[KAGA02] 介绍 了 REI， 一 种 策略 框架 ， 它 是 灵活 的 并 且 人 允许 不 同 种 类 的 策略 被 陈述 。 
最 近 也 有 人 提出 了 REI 的 扩展 ( 见 本 章 参考 文献 [KHANIO]) 。 这 种 策略 规范 语言 允许 
FAP RDF, DAML + OIL, OWL 的 域 特 定 本 体 开 发 有 声明 性 的 策略 。 本 章 参考 文献 
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[REDD05] 中 的 作者 还 引入 一 个 原型 RAP， 用 于 实施 具有 集成 功能 和 访问 控制 的 RDF 
存储 。 但 是 ， 这 些 框 架 并 没有 解决 RDF 存储 可 能 会 变 得 非常 大 ， 或 策略 不 与 数据 同步 
扩展 的 情况 。 在 IARPA 资助 的 项 目下 ， 我 们 还 开发 了 处 理 非 常 大 RDF 图 形 的 技术 (UL 
本 章 参考 文献 [UTD2]). 
27.3.2.4 Hadoop 存储 架构 

人 们 对 RDF 数据 大 规模 分 布 式 存储 和 检索 技术 有 很 大 兴趣 。 关 于 数据 并 行 处 理 框 
架 的 理论 设计 的 工作 由 Castagna 等 人 完成 ( 见 本 章 参考 文献 [ CASTO9 ]) 。 这 项 工作 主 
张 使 用 具有 不 同 级 别 粒度 的 数据 分 布 模型 ， 例 如 三 元 组 级 别 、 图 形 级 别 和 数据 集 级 别 。 
在 分 布 式 模型 上 的 查询 (包含 分 布 式 数据 的 机 器 上 的 ) 被 分 成 一 组 子 查询 。 所 有 子 查 
询 的 结果 将 被 合并 ， 以 完整 的 结果 返回 给 用 户 应 用 程序 。 这 个 理论 概念 的 几 个 实现 存在 
于 研究 界 ， 这 些 努 力 包括 Choi 等 人 ( 见 本 章 参 考 文献 [CHOI09] ) 和 Abraham 等 人 
( 见 本 章 参 考 文献 [ABRA10]) 的 工作 。 一 项 已 经 用 于 存储 和 检索 RDF 数据 的 专门 技 
A, 使 用 了 PRP ABE ( 见 本 章 参 考 文献 [ ABER04]、  [CAI4], [HARTO7]、 
[VALL06])。 然 而 ， 这 种 系统 存在 一 些 缺 陷 ， 因 为 P2P 系统 需要 具有 超级 对 等 体 ， 来 
存储 关于 对 等 体 之 间 的 RDF 数据 分 布 的 信息 。 另 一 个 缺点 是 需要 将 SPARQL 查询 联合 
到 网 络 中 的 每 个 对 等 体 。 
27.3.2.5 分 布 式 推理 

InteGrail 系统 使 用 分 布 式 推理 ， 其 愿景 是 塑造 未 来 的 欧洲 铁路 组 织 ( 见 本 章 参 考 文 
献 [INTE09 ] ) 。 在 本 章 参考 文献 [URBA09] 中 ， 作 者 已 经 展示 了 基于 Map/Reduce 的 
RDFS 推理 上 实现 的 可 扩展 性 ， 可 以 在 不 到 2 小 时 的 时 间 内 ， 从 现实 世界 的 数据 集中 推 
算出 300 亿 个 三 元 组 ， 引 发 的 输入 和 输出 吞吐 量 分 别 为 每 秒 123. 000 个 三 元 组 和 每 秒 
327 万 个 三 元 组 。 他 们 为 Map/Reduce 中 的 RDFS 规则 集 进 行 了 一 些 重要 的 优化 ， 并 且 使 
用 几 个 现实 世界 的 数据 集 ， 评 估 了 在 64 个 计算 节点 的 集群 上 实现 的 可 扩展 性 。 
27.3.2.6 访问 控制 和 策略 本 体 建 模 

已 经 有 一 些 人 ， 尝 试 使 用 语义 Web 技术 来 建 模 访 问 控制 和 策略 模型 。 在 本 章 参 考 
文献 [ CIRIO7] 中 ， 作 者 已 经 展示 了 如 何 使 用 OWL 和 描述 逻辑 来 构建 访问 控制 系统 。 
他 们 开发 了 一 个 高 级 OWL -DL 本 体 ， 表 达 了 基于 角色 的 访问 控制 系统 的 元 素 ， 并 已 经 
构建 了 一 个 能 够 捕获 示例 场景 特征 的 特定 域 本 体 。 最 后 ， 他 们 考虑 到 策略 的 齿 列 和 访问 
控制 决策 中 的 属性 ， 加 入 了 这 两 个 比较 老 的 组 件 。 在 本 章 参考 文献 [REULIO] F, fF 
者 首先 提出 了 一 种 基于 DOGMA 的 安全 策略 本 体 ， 这 是 一 个 形式 本 体 工 程 框架 。 本 体 论 
涵盖 了 安全 策略 的 核心 要 素 ( 即 条 件 、 行 动 、 资 源 ) ， 并 且 可 以 轻松 地 扩展 以 表示 特定 
的 安全 策略 ， 如 访问 控制 策略 。 在 本 章 参考 文献 [ANDE09] 中 ， 作 者 提出 了 用 一 种 本 
体 论 动机 的 方法 来 应 对 信息 系统 的 多 级 访问 控制 和 多 级 别 来 源 。 


27.3.3 商业 发 展 


27.3.3.1 RDF 处 理 引 擎 
研究 用 和 商业 化 的 RDF 处 理 引 擎 包括 惠普 实验 室 的 Jena, BigOWLIM 和 RDF -3X。 
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虽然 这 其 中 有 些 存储 模式 和 查询 处 理 机 制 是 专 有 的 ， 但 它们 都 是 基于 RDF 数据 中 某 种 
类 型 的 索引 策略 。 但 是 ， 只 有 少数 的 工具 使 用 云 中 心 架构 来 处 理 RDF 数据 ， 此 外 ， 这 
些 工具 不 可 以 扩展 成 大 量 数目 的 三 元 组 。 相 比 之 下 ， 我 们 在 CAISS + + 中 的 查询 处 理 器 
将 构建 为 行星 级 别 规模 的 RDF 处 理 引 警 ， 支 持 所 有 SPARQL 运算 符 ， 并 为 SPARQL Æ 
询 提供 优化 的 执行 策略 ， 并 可 以 扩展 到 数 十 亿 个 三 元 组 。 
27.3.3.2 基于 Web 的 语义 安全 策略 引擎 

如 27.3.2 节 所 述 ， 目 前 关于 基于 Web 语义 策略 规范 和 实施 的 工作 ， 没 有 解决 面向 
大 型 数据 的 策略 生成 和 实施 ， 以 及 支持 大 量 用 户 的 问题 。 
27.3.3.3 云 

据 我 们 所 知 ， 对 于 云 中 心 AIS 并 不 存在 明显 的 商业 竞争 。 我 们 采用 模块 化 的 方法 来 
创建 我 们 的 工具 ， 可 以 分 别 和 迭代 地 处 理 每 个 组 件 〈 策 略 引擎 、 存 储 架 构 和 查询 处 理 
器 ) 。 由 于 采用 基于 组 件 的 方法 ， 我 们 将 能 够 适应 所 使 用 平台 的 变化 (例如 Hadoop, 
RDF, OWL 和 SPARQL) ， 而 不 必 依 赖 给 定 平台 的 特定 功能 。 


























































































































27.4 总 结 和 展望 




















本 章 介 绍 了 我 们 基于 云 信息 共享 而 设计 的 一 个 系统 ， 叫 作 CAISS。CAISS 利用 了 我 
们 开发 的 多 种 技术 和 开源 技术 。 我 们 也 描述 了 一 种 理想 的 基于 云 计 算 的 信息 共享 保障 系 
统 设计 ， 叫 作 CAISS + +。 

我 们 已 经 实现 了 CASS 的 几 个 版 本 。 在 CASS 的 第 一 个 版 本 实施 中 ,我 们 利用 
SPARQL 查询 处 理 器 与 XACML 指定 的 策略 ， 这 或 多 或 少 是 第 23 章 中 描述 的 系统 。 第 二 
个 版 本 实施 中 ， 我 们 利用 RDF 中 指定 策略 的 原型 ， 在 云 中 开发 策略 引擎 并 将 其 与 数据 
引擎 集成 。 这 个 系统 将 在 第 28 章 讨 论 ( 另 见 本 章 参 考 文 献 [ CADEI2a] 和 
[CADE12b] ) 。 未 来 我 们 将 继续 通过 实施 更 复杂 的 策略 ， 来 增强 我 们 的 原型 。 未 进行 分 
析 的 策略 包括 访问 控制 策略 和 信息 共享 策略 。 我 们 将 对 策略 的 执行 实施 形式 进行 分 析 。 
我 们 的 最 终 目标 是 实现 CAISS + + 。 


















































参考 文献 


[ABRA10] Brazieb A., C. Navarro, and A. Piazza. Distributed storage and querying tech- 
niques for a semantic web of scientific workflow provenance. Proceedings IEEE SCC, 
Miami, FL, 2010. 

[ABERO04] Aberer, K. P, P. Cudfe-Mauroux, M. Hauswirth, and T. Van Pelt. GridVine: 
Building Internet-scale semantic overlay networks. International Semantic Web 
Conference, Hiroshima, Japan, 2004. 

[AMAZ09] Amazon Web Services: Overview of Security Processes. http://awsmedia. 
s3.amazonaws.com/ pdf/AWSSecurity Whitepaper.pdf 


354 


第 27 章 一 以 云 为 中 心 保 障 信 息 共 


[ANDE09] Andersen, B. and F Neuhaus. An ontological approach to information access 
control and provenance. Proceedings of Ontology for the Intelligence Community, Fairfax, 
VA, October 2009. 

[AWAD10] Khan, A. and B. M. Thuraisingham. Policy enforcement system for inter- 
organizational data sharing. Journal of Information Security and Privacy, 4(3): 22-39, 2010. 

[BIOM11] BioMANTA: Modelling and analysis of biological network activity. http://www. 
itee.uq.edu.au/reresearch/projects/biomanta. 

[CADE10] Cadenhead, T., M. Kantarcioglu, and B. M. Thuraisingham. Scalable and efficient 
reasoning for enforcing role-based access control. Proceedings of Data and Applications 
Security and Privacy XXIV, 24th Annual IFIP Working Group 11.3 Working Conference, 
Rome, Italy, p. 209—224, 2010. 

[CADE11a] Cadenhead, T., V. Khadilkar, M. Kantarcioglu, and B. M. Thuraisingham. 
Transforming provenance using redaction. Proceedings of ACM Symposium on Access 
Control Models and Technologies, Innsbruck, Austria, p. 93-102, 2011. 

[CADE11b] Cadenhead, T., V. Khadilkar, M. Kantarcioglu, and B. M. Thuraisingham. 
A language for provenance access control. Proceedings of ACM Conference on Data 
Application Security and Privacy, San Antonio, TX, 133-144, 2011. 

[CADE1 2a] Cadenhead, T., V. Khadilkar, M. Kantarcioglu, and B. M. Thuraisingham. 
A cloud-based RDF policy engine for assured information sharing. Proceedings of 
ACM Symposium on Access Control Models and Technologies, Newark, NJ, 113-116, 
2012. 

[CADE12b] Cadenhead, T., M. Kantarcioglu, V. Khadilkar, and B. M. Thuraisingham. 
Design and implementation of a cloud-based assured information sharing system. 
Proc. of Intl. Conf. on Mathematical Methods, Models and Architectures for Computer 
Network Security, St. Petersburg, Russia, 36-50, 2012. 

[CARM04 Carminati, B., E. Ferrari, and B. M. Thuraisingham. Using RDF for policy 
specification and enforcement. Proc. of Intl. Workshop on Database and Expert Systems 
Applications, Zaragoza, Spain, p. 163—167, 2004. 

[CARMO9] Carminati, B., E. Ferrari, R. Heatherly, M. Kantarcioglu, and B. M. Thuraisingham. 
A semantic web based framework for social network access control. Proc. of ACM 
Symposium on Access Control Models and Technologies, Stresa, Italy, 177—186, 2009. 

[CAIO4] Cai, M. and M. Frank. RDFPeers: A scalable distributed RDF repository based on 
a structured peer-to-peer network. Proceedings ACM World Wide Web Conference, New 
York, NY, 2004. 

[CELIO7] Celikel, E., M. Kantarcioglu, and B. M. Thuraisingham, ElisaBertino. Managing 
risks in RBAC employed distributed environments. Ox the Move to Meaningful Internet 
Systems, Vilamoura, Portugal, (2): 2007. 

[CAST09] Castagna, P, A. Seaborne, and C. Dollin. A parallel processing framework for 
RDF design and issues. Technical report, HP Laboratories, HPL-2009-346, 2009. 

[CHOIO09] Choi, H., J. Son, Y. Cho, M. Sung, and Y. Chung. SPIDER: A system for scalable, 
parallel/distributed evaluation of large-scale RDF data. Proceedings ACM Conference on 
Information and Knowledge Management (CIKM), Hong Kong, China, 2087-2088, 2009. 

[CIRIO7] Cirio, L., I. Cruz, and R. Tamassia. A role and attribute based access control system 
using semantic web technologies. [FIP Workshop on Semantic Web and Web Semantics, 
Vilamoura, Algarve, Portugal, 2007. 

[DING05] Ding, L., T. Finin, Y. Peng, P. da Silva, and D. Mcguinness. Tracking RDF 
graph provenance using RDF molecules. Proc. International Semantic Web Conference, 
Galway, Ireland, 2005. 


eh 
3X. | 


355 





1 和 云 计 算 开 发 与 安全 





[DoD] DoD Information Enterprise Strategic Plan, 2010-2012, http://cio-nii.defense.gov/ 
docs/DodIESP-r16.pdf 

[DoD07] Department of Defense Information Sharing Strategy, 2007. 

[DoD09] DoD mbraced Cloud Computing, http://www.defensemarket.com/?p=67 

[FINI09] Finin, T., A. Joshi, H. Kargupta, Y. Yesha, J. Sachs, E. Bertino, Li et al., Assured 
information sharing life cycle. Proc. Intelligence and Security Informatics, 2009. 

[GUO05] Guo, Y., J. Heflin, and Z. Pan. LUBM: A benchmark for OWL knowledge base 
systems. Web Semantics, 3(2-3), 158-182, 2005. 

[HAML06a] Hamlen, K., G. Morrisett, and E Schneider. Computability classes for enforce- 
ment mechanisms. ACM Transactions on Programming Languages and Systems, 28(1): 
175-205, 2006. 

[HAMLOGb] Hamlen, K., G. Morrisett, and E Schneider. Certified in-lined reference moni- 
toring on. NET. Proc. ACM Workshop on Prog. Lang. and Analysis for Security, pp. 7-16, 
Ottawa, Canada, 2006. 

[HAML10b] Hamlen, K., V. Mohan, and R. Wartell. Reining in Windows API abuses with 
in-lined reference monitors. Tech. Rep. UTDCS-18-10, Computer Science Dept., 
University of Texas at Dallas, 2010. 

[HART07] Harth, A., J. Umbrich, A. Hogan, and S. Decker. YARS2: A federated repository 
for searching and querying graph structured data. Inti. Semantic Web Conference, Busan, 
Korea, 2007. 

[HUSA11] Husain, M., J. McGlothlin, M. Masud, L. Khan, and B. M. Thuraisingham. 
Heuristics-based query processing for large RDF graphs using cloud computing. ZEEE 
Trans. Knowl. Data Eng., 23, 1312-1327, 2011. 

[INTE09] Distributed reasoning: Seamless integration and processing of distributed knowl- 
edge. http://www. integrail.eu/documents/fs04. pdf. 

[JAINO6] Jain, A. and C. Farkas. Secure resource description framework: An access control 
model. ACM Symposium on Access Control Models and Technologies, Lake Tahoe, CA, 2006. 

[JONE10] Jones, M. and K. Hamlen. Disambiguating aspect-oriented security policies. Proc. 
9th Int. Conf. Aspect-Oriented Software Development, Rennes and St. Malo, France, 
pp. 193-204, 2010. 

[JONE11] Jones, M. and K. Hamlen. A service-oriented approach to mobile code secu- 
rity. Proc. 8th Int. Conf. Mobile Web Information Systems, (MobiWIS) Niagara Falls, 
Ontario, Canada, 2011. 

[KAGA02] Kagal, L. REL, A policy language for the project, http://www.hpl.hp.com/techre- 
ports/2002/HPL-2002-270.pdf. 2002 

[KANT10] Kantarcioglu, M. Incentive-based assured information sharing, AFOSR MURI 
Review, October 2010. 

[KHAD11] Khadilkar, V., M. Kantarcioglu, and B. M. Thuraisingham. Mehrotra: Secure 
data processing in a hybrid cloud. Proc. Computing Research Repository/1105.1982, 
May 2011. 

[KHAL10] Khaled, A., M. Husain, L. Khan, K. Hamlen, and B. M. Thuraisingham. A 
token-based access control system for RDF data in the clouds. CleudCom2010, 
Indianapolis, IN. 

[KHAN10] Khandelwal, A., J. Bao, L. Kagal, I. Jacobi, L. Ding, and J. Hendler. Analyzing 
the AIR language: A semantic web (production) rule language. Inti. Conf: on Web 
Reasoning and Rule Systems, Bressanone, Brixen, Italy, 58-72, 2010. 

[MARS10] Marshall, A., M. Howard, G. Bugher, and B. Harden. Security best practices in 
developing Windows Azure applications. Microsoft Corp. 2010. 


356 


第 27 章 以 云 为 中 心 保 障 信息 共享 人 


[MEWMO08] Newman, A., J. Hunter, Y. Li, C. Bouton, and M. Davis. A scale-out RDF 
molecule store for distributed processing of biomedical data. Semantic Web for Health 
Care and Life Sciences Workshop, World Wide Web Conference, Beijing, China, 2008. 

[NSA11] Jnformation Week, NSA pursues intelligence-sharing architecture, http://www. 
informationweek.com/news/government/cloud-saas/22940 1646. 2011. 

[OMAL09] O'Malley, D., K. Zhang, S. Radia, R. Marti, and C. Harrell. Hadoop Security 
Design. http://techcat.org/wp-content/uploads/2013/04/hadoop-security-design. pdf. 
2009. 

[RAOO08] Rao, P, D. Lin, E. Bertino, N. Li, and J. Lobo. EXAM: An environment for access 
control policy analysis and management. JEEE Workshop on Policies for Distributed 
Systems and Networks (POLICY), Palisades, NY, 2008. 

[REDD05] Reddivari, P, A. Joshi, and T. Finin. Policy-based access control for an RDF 
store. Policy Management for the Web, [ICAI Workshop, Chiba, Japan, 2005. 

[REUL10] Reul, Q., G. Zhao, and R. Meersman. Ontology-based access control policy 
interoperability. Proc. Ist Conference on Mobility, Individualisation, Socialisation and 
Connectivity, MISC, London, UK, 2010. 

[SHPR11] SHPRD. http://www.cloudera.com/blog/2010/03/how-raytheonresearchers-are- 
using-hadoop-to-build-a-scalable-distributed-triplestore. 

[SRID10] Sridhar, M. and R. Hamlen. Model-checking in-lined reference monitors. Proc. 
11th Int. Conf. on Verification, Model Checking, and Abstract Interpretation, Madrid, 
Spain, pp. 312—327, 2010. 

[TALB09] Talbot, D. How secure is cloud computing, 2009, http://www.technologyreview. 
com/computing/23951/ 

[THUR08] Thuraisingham, B. M., H. Kumar, and L. Khan. Design and implementation of 
a framework for assured information sharing across organizational boundaries. Journal 
of Information Security and Privacy, 2(4): 67—90, 2008. 

[THUR10] Thuraisingham, B. M., V. Khadilkar, A., Gupta, M. Kantarcioglu, and Khan. 
Secure data storage and retrieval in the cloud. CollaborateCom, Chicago, IL, 2010. 

[THUR11] Thuraisingham, B. M. and V. Khadilkar. Assured information sharing in the 
cloud. UTD Tech. Report. Sept. 2011. 

[THUS09] Thusoo, A., J. Sharma, N. Jain, Z. Shao, P. Chakka, S. Anthony, H. Liu, P. Wyckoff, 
and R. Murthy. Hive—A warehousing solution over a map-reduce framework. Proceedings 
of VLDB Endowment, 2009. 

[THUR12] Thuraisingham, B. M., V. Khadilkar, J. Rachapalli, T. Cadenhead, M. Kantarcioglu, 
K. W. Hamlen, L. Khan, and M. F Husain. Cloud-centric assured information sharing. 
PAIST, Kuala Lumpur, Malaysia, 2012, 1-26. 

[URBA09] Urbani. Scalable Distributed Reasoning using MapReduce. http://www.few. 
vu.nl/~jui200/papers/ISWC09-Urbani.pdf. 

[USZOO04] Uszok, Bradshaw, Johnson, Jeffers, Tate, Dalton, and Aitken. KAoS policy man- 
agement for semantic web services. [EEE Intelligent Systems, 19(4): 32-41, 2004. 

[UTD1] UTD Secure Cloud Repository, http://cs.utdallas.edu/secure-cloud-repository/ 

[UTD2] UTD Semantic Web Repository, http://cs.utdallas.edu/semanticweb/ 

[VALLOG] Valle, E., A. Turati, and A. Ghioni. AGE: A distributed infrastructure for foster- 
ing RDF-based interoperability. Proceedings Distributed Applications and Inter-Operable 
Systems (DAIS), Bologna, Italy, 2006. 

[ZQL] Zql: A Java SQL parser. http://www.gibello.com/code/zql/ 


357 


保障 系统 的 设计 与 实现 


28.1 概述 


云 计 算 模式 可 以 安全 有 效 地 共享 大 量 数据 。 此 外 ， 云 计算 的 出 现 以 及 软件 即 服 务 
(Software as a Service, SaaS) 模式 的 持续 发 展 , 已 经 对 作为 云 中 服务 的 保障 信息 共享 
(AIS) 的 需求 持续 上 升 。 为 了 满足 联盟 组 织 以 云 为 中 心 的 AIS 需求 ， 需 要 开发 一 个 在 
云 中 运行 的 AIS 框架 。 据 我 们 所 知 ， 目 前 还 没有 这 样 的 系统 存在 。 第 27 章 中 ， 我 们 描 
述 了 一 个 系统 叫 作 CAISS 的 设计 : 云 中 心 信息 共享 保障 系统 (Cloud Centric Assured In- 
formation Sharing System ，CAISS) ， 它 利用 了 我 们 之 前 内 部 设计 的 技术 组 件 和 开源 工具 。 
CAISS 包括 两 个 部 分 : 一 个 是 云 中 心 策略 管理 器 ， 执 行 RDF 指定 的 策略 〈 见 本 章 参 考 
文献 [KLYN04] ) ， 另 一 个 是 云 中 心 数据 管理 器 ， 将 存储 和 管理 RDF 指定 的 数据 。RDF 
数据 管理 器 本 质 上 是 SPARQL 的 查询 引擎，SPARQL 是 语义 Web 数据 广泛 使 用 的 用 于 查 
if] RDF 数据 的 语言 。RDF 是 语义 Web 语言 ， 它 被 认为 比 基 于 XML 策略 语言 对 策略 更 具 
表达 力 和 推理 力 。 另 外 ， 我 们 的 策略 管理 器 和 数据 管理 器 将 无 颖 集成 ， 这 是 由 于 它们 都 
管理 RDF 数据 。 

上 一 章 讨论 的 系统 (例如 CAISS，CAISS + +) 正在 设计 阶段 ， 本 章 ， 我 们 在 语义 
云 中 描述 设计 和 实施 的 细节 。 也 就 是 说 ,我们 使 用 语义 Web 技术 提供 基于 云 计 算 的 语 
X Web 服务 。 这 种 语义 Web 服务 实现 信息 共享 。 这 或 多 或 少 是 第 27 章 中 描述 的 CAISS 
系统 。 我 们 基本 上 开发 了 一 个 全 面 的 AIS 框架 在 云 中 无 颖 运行。 我 们 的 框架 包括 3 层 结 
构 ， 包 含 一 个 用 户 接口 层 、 一 个 策略 引 警 层 和 一 个 将 多 个 数据 源 集成 到 云 中 的 数据 连接 
层 。 据 我 们 所 知 ， 这 是 第 一 个 在 云 中 运行 的 AS 框架 。 我 们 在 28. 2 节 中 将 描述 我 们 系 
统 的 设计 和 实施 的 细节 。 尤 其 是 ， 系 统 结构 、 系 统 结构 操作 、 系 统 结构 模块 以 及 系统 结 
构 使 用 都 将 被 讨论 。 本 章 最 后 在 28. 3 节 中 讨论 关于 未 来 的 工作 。 






































































































































28.2 ”架构 


28.2.1 简介 








我 们 的 策略 引擎 架构 由 RDF 配置 文件 驱动 ， 配 置 文件 对 策略 引擎 的 逻辑 、 它 们 的 
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使 用 、 用 户 接口 布局 和 可 定制 的 参数 进行 编码 ， 并 使 用 可 靠 的 数据 连接 将 可 参 引 的 Uris 
映射 到 数据 存储 。 我 们 的 策略 引擎 框架 可 以 作为 增强 RDBMS (关系 数据 库 管理 系统 ) 
和 基于 云 计算 系统 的 安全 性 关键 推动 因素 。RDBMS 是 以 原子 性 、 并 发 性 和 耐久 性 为 核 
心 开发 的 ， 但 通常 对 访问 控制 的 支持 有 限 。 云 存储 层 允 许 各 机 构 存 储 ， 并 扩展 具有 对 
RDF 资源 有 良好 控制 权限 的 策略 。 云 的 发 展 考虑 到 了 可 扩展 性 和 可 用 性 ,但 安全 问题 
被 忽略 。 我 们 的 策略 引擎 可 以 在 RDBMS 系统 中 的 一 个 人 口 完 成 配置 策略 ， 来 支持 基于 
云 的 安全 策略 。 我 们 首先 提出 框架 的 配置 ， 然 后 定义 我 们 架构 中 的 各 层 。 最 后 ， 我 们 描 
述 我 们 实施 中 的 新 特点 。 图 28. 1 说 明了 我 们 的 架构 ， 图 28. 2 为 我 们 的 配置 框架 。 
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28.1 架构 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 ; Cadenhead, 
T. , Kantarcioglu, M. 和 Khadilkar, V. , Design and Implementation fo a Cloud - Based Assured 





Information Sharing System , Media from Lecture Notes in Computer Science, Proceedings of 
Computer Network Security — 6th International Conference on Mathematical Methods, 
Models and Architectures for Computer Network Security, MMM - ACNS 2012, St. Petersburg, Russia, 
7531, 2012, p.36 -50, © Springer) 


28.2.2 框架 配置 


松散 耦合 系统 给 我 们 的 RDF 策略 引擎 框架 提供 了 简单 的 配置 和 灵活 性 。 每 个 组 件 
都 通过 采用 RDF 文档 从 其 他 组 件 中 抽象 出 来 ，RDF 文档 由 代理 机 构 对 策略 的 偏好 或 对 
数据 存储 的 数据 连接 组 成 。 此 外 ， 松 散 耦 合 Web 前 端 促 使 策略 框架 更 容易 维护 和 可 重 
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图 28.2 配置 概述 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : Cadenhead, T., 
Kantarcioglu, M. 和 Khadilkar, V. , Design and Implementation fo a Cloud - Based Assured 
Information Sharing System , Media from Lecture Notes in Computer Science, Proceedings of 

Computer Network Security — 6th International Conference on Mathematical Methods, 
Models and Architectures for Computer Network Security , 


MMM - ACNS 2012, St. Petersburg, Russia, 7531, 2012, p.36 -50, © Springer) 
用 ， 因 为 适配器 模式 将 Web 接口 (和 通信 ) 映射 到 其 他 层 。 抽 象 隐藏 了 来 自 机 构 的 策 
略 引擎 管理 器 和 数据 管理 器 的 真正 实施 和 复杂 性 。 因 此 这 人 允许 机 构 用 任何 语言 来 表示 他 
们 指定 的 策略 ， 比 如 XML, RDF, BK REI ( 见 本 章 参考 文献 [KAGA02] ) 。 另 外 ， 适 配 
器 也 将 高 级 策略 规范 隐藏 到 策略 实施 中 。 


28.2.3 架构 中 的 模块 


我 们 的 系统 架构 包括 3 个 层 : 前 端 ， 我 们 有 用 户 接口 ; 中 间 层 ， 由 策略 引擎 逻辑 组 
成 ; 后 端 ， 我 们 有 数据 存储 。 接 下 来 ， 我 们 将 讨论 这 些 模块 。 
28. 2. 3.1 用 户 接口 层 

为 了 与 我 们 架构 一 对 一 交互 ， 在 策略 层 之 上 建立 了 基于 Web 的 用 户 接口 。 客 户 端 
和 开源 Web 技术 简化 了 用 户 在 Web 网页、 底层 策略 和 数据 层 的 交互 。 这 种 整合 有 许多 
优点 。 策 略 框架 在 分 布 式 环境 中 允许 具有 和 较 好 的 地 域 分 布 。 因 此 ， 机 构 和 用 户 都 有 流动 
TE, Web 接口 需要 用 户 创 建 一 个 账户 (注册) 并 且 选 择 唯 一 的 赁 证， 然后 由 用 户 将 其 
用 于 向 策略 框架 标识 自己 。 基 于 表单 的 身份 验证 模式 以 及 挑战 性 响应 测试 ， 将 合法 用 户 
与 机 器 人 (可 能 会 成 为 正常 用 户 ) 区 别 开 来 。 然 后 ， 向 合法 用 户 提供 一 个 查询 接口 ， 
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并 允许 他 们 在 被 授权 后 提交 APSRQL 查询 。 注 意 到 SPARQL ( 见 本 章 参 考 文献 
[PRUD06]) 是 RDF 的 查询 语言 ， 并 且 被 用 于 从 三 元 组 存储 中 检索 数据 。SPARQL 查询 
被 验证 后 传 给 策略 引擎 层 ， 并 返回 一 个 RDF 结果 图 显示 在 网 页 上 。 

28.2.3.1.1 用 户 注册 
用 户 注 册 向 用 户 提供 通过 网 络 注 册 表 向 系统 注册 的 机 会 。 注 册 表 获取 用 户 的 姓名 、 
密码 和 其 他 关于 用 户 的 元 数据 。 元 数据 可 以 是 一 个 代理 ， 用 户 是 其 中 的 一 部 分 ,或 者 是 
用 户 执行 的 将 用 户 的 凭证 映射 到 角色 的 数据 。 接 下 来 的 RDF 图 展示 了 一 个 用 户 配置 文 
件 的 内 容 。RDF 图 中 的 最 后 一 个 三 元 组 包含 男 一 个 RDF 图 的 可 参 引 的 URI， 然 后 它 包 
含 用 户 被 允许 查询 的 实际 资源 中 的 可 参 引 的 URI 列表 。 


<http://policy.org/agency/pol#users> 
pol:user <http://policy.org/agency/pol#userl>. 










































































# resources 
<http://policy.org/agency/pol#user1> 
pol:name "userl"; 
pol:passwd " :b1"; 
pol:organization <http://policy.org/agency/pol#Agencyl>; 
pol:resourcelist <http://example/users/resources/userl>. 


28.2.3.1.2 机构 注册 

机 构 注册 包含 一 组 网 页 ， 每 个 网 页 都 是 前 一 个 的 子 网 页 。 这 个 过 程 从 一 个 机 构 注册 
言 息 来 开始 描述 自己 。 第 一 ， 机 构 注 册 关 于 自己 的 重要 元 数据 。 元 数据 是 RDF 文件 ， 
可 以 被 用 来 介绍 一 个 机 构 给 其 人 他人， 因此， 应 该 是 自我 描述 。 这 个 元 数据 中 的 一 些 示 例 
三 元 组 可 以 表明 一 个 机 构 的 名 字 、 地 址 、 行 业 和 联系 方式 等 。 第 二 ， 机 构 记 录 其 资源 。 
资源 有 唯一 的 URI 并 且 对 于 机 构 的 RDF 文件 可 参 引 ， 其 中 包含 该 机 构 的 敏感 数据 和 非 
敏感 数据 。 这 是 通常 存储 在 关系 数据 库 中 的 信息 ， 但 现在 要 迁移 到 云 中 。 第 三 ,一 个 机 
构 定 义 其 资源 策略 。 机 构 可 以 在 策略 引 警 层 支持 的 多 种 策略 中 选择 。 策 略 的 例子 包括 : 
访问 控制 、 编 辑 、 信 息 共享 等 。 第 四 ， 机 构 为 策略 描述 多 种 策略 规则 。 需 注意 机 构 可 能 
使 用 访问 控制 保护 其 资源 。 但 是 ， 机 构 选 择 特殊 策略 可 能 需要 不 止 一 个 规则 。 比 如 ， 一 
个 访问 控制 规则 可 能 指定 一 个 肯定 的 授权 ， 而 在 相同 资源 上 其 他 规则 可 能 指定 一 个 否定 
的 授权 。 最 后 ， 一 个 机 构 还 要 指定 查询 。 在 数据 存储 上 写 入 策略 规则 是 一 个 非常 流行 的 
技术 (比如 SPARQL 查询 )。 机 构 可 以 在 它 的 此 类 规则 中 指定 配置 文档 ， 用 来 说 明 查 询 
是 否 被 具体 化 。 一 个 具体 化 的 查询 可 以 加 快 策略 执行 速度 ， 而 一 个 未 具体 化 的 查询 要 实 
时 刷新 结果 集 。 
28.2.3.2 策略 引擎 

策略 引擎 首先 根据 存储 的 数据 资源 评估 用 户 的 查询 (可 以 是 传统 数据 或 元 数据 ) 。 
数据 资源 的 特征 是 统一 资源 标识 符 (URI) 。 策 略 层 使 用 工厂 对 象 来 创建 基础 策略 。 工 
厂 通 过 一 致 的 接口 公开 一 项 策略 ， 因 此 使 扩展 我 们 的 策略 引擎 来 支持 其 他 类 型 的 策略 变 
得 更 容易 。 我 们 目前 支持 访问 控制 、 编 辑 和 信息 共享 策略 。 为 了 支持 传统 策略 ， 我 们 使 
用 SPARQL 查询 来 定义 资源 上 的 视图 ， 其 中 视图 可 以 和 正 负 授权 或 子 图 蔡 换 过 程 中 的 目 
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标 相 关联 。 一 个 重要 的 元 数据 是 数据 源 ， 它 记录 了 一 段 数据 项 的 历史 。 但 是 ， 数 据 源 采 
定向 非 循环 图 (Directed Acyclic Graph, DAG) 的 结构 ， 所 以 需要 自己 的 策略 ( 见 本 
章 参 考 文献 [BRAU08 ] ) 。 因 此 我 们 支持 使 用 正则 表达 式 ， 从 SPARQL 查询 中 提取 访问 
控制 策略 ( 见 本 章 参 考 文献 [ CADElla]) 和 编辑 策略 ( 见 本 章 参 考 文献 
[CADE11b] )。 我 们 也 实施 了 数据 和 来 源 的 信息 共享 策略 ， 并 且 允 许 合作 机 构 基 于 相互 
协议 来 共享 信息 ( 见 本 章 参 考 文献 [CADE12 ] ) 。 

敏捷 环境 推动 策略 设计 师 不 断 调整 或 扩展 其 策略 ， 以 快速 适应 不 断 变化 的 环境 ， 从 而 确 
保 数 据 集成 和 组 合 不 会 违反 数据 保密 性 ， 特 别 是 在 快速 操作 至 关 重 要 (例如 情报 ) 时 。 为 了 
满足 这 一 需求 ， 我 们 的 策略 引 警 层 支 持 多 个 策略 引擎 ， 而 云 支 持 许多 策略 配置 文档 。 

策略 引擎 将 用 户 的 凭证 和 可 参 引 URI 作为 输入 ， 然 后 返回 新 的 RDF 图 (或 模型 ) 。 
他 还 要 在 用 户 接口 层 之 前 ， 对 策略 的 底层 逻辑 进行 评估 。 可 参 引 URI 指向 一 个 配置 文 
档 ， 它 本 身 包 含 其 他 可 参 引 UR 指向 到 机 构 资源 的 策略 和 数据 层 的 机 构 资源 。 机 构 的 
资源 是 一 个 RDF 文档 ， 三 元 组 处 在 一 个 或 多 个 分 类 级 别 。 例 如 ， 一 个 完整 的 RDF 文档 
如 果 它 包括 智能 信息 ， 或 者 含有 实际 智能 信息 的 三 元 组 子 集 ， 它 将 被 分 类 为 敏感 类 型 。 
因此 ， 一 个 机 构 需 要 超过 一 种 策略 来 实现 对 资源 细 粒 度 的 控制 。 一 个 策略 因此 通过 接口 
定义 ， 它 允许 每 个 策略 的 逻辑 实施 。 在 返回 一 个 新 的 RDF 图 (或 模型 ) 到 用 户 接口 层 
之 前 ， 策 略 引 擎 来 评估 策略 基础 逻辑 。 通 过 将 策略 迁移 到 云 中 ， 机 构 克 服 了 之 前 可 能 在 
策略 定义 数量 上 的 限制 。 接 下 来 的 小 节 总 结 各 种 策略 的 类 型 。 在 下 面 的 小 节 里 ， 我 们 将 
讨论 策略 引擎 层 的 细节 。 这 个 层 包含 需 要 的 策略 类 型 ， 例 如 ， 访 问 控制 、 编 辑 、 信 息 共 
享 等 。 我 们 将 通过 依次 讨论 这 些 策 略 类 型 ， 反 过 来 激励 灵活 性 策略 引擎 的 需求 。 
28.2.3.2.1 访问 控制 策略 引擎 

访问 控制 策略 授权 是 一 组 用 户 对 环境 中 一 组 资源 执行 的 一 组 操作 。 除 非 通过 一 个 或 
多 个 访问 控制 策略 被 授权 ， 和 否则 用 户 无 权 访问 系统 的 任何 资源 。 有 很 多 种 访问 控制 策 
略 ， 可 以 被 分 为 3 种 主要 类 型 ( 见 本 章 参考 文献 [SAMA01] ) 。 这 些 策略 因 对 用 户 、 操 
作 和 对 象 集 (访问 控制 模型 通常 将 资源 看 作对 象 ) 的 限制 而 不 同 。 这 些 分 类 是 : (D 
RBAC， 它 基于 角色 限制 访问 ; @ 自 主 访问 控制 (Discretionary Access Control, DAC), 
它 是 基于 用 户 身份 控制 访问 ; @ 强 制 性 访问 控制 (Mandatory Access Control, MAC), Č 
基于 由 授权 中 心 确定 的 强制 性 规定 控制 访问 。 

基于 RBAC 的 策略 通常 用 于 简化 策略 映射 的 管理 ， 这 是 3 类 访问 控制 策略 中 的 一 个 
共同 特征 。 策 略 创 建 和 可 管理 性 在 获取 共享 资源 的 访问 控制 权限 方面 非常 重要 。 我 们 使 
用 习惯 做 法 ,把 权限 看 作 是 唯一 的 动作、 资源 ) 对 。 给 定 n 个 资源 、m 个 用 户 和 一 
组 只 有 两 个 动作 ( 读 、 写 )， 我们 最 多 有 2 xn 个 可 能 的 权限 。 这 给 出 了 mx (2 xn) =c, 
n 个 映射 。 从 可 能 的 一 组 + 角色 中 ，RBAC 的 进一步 改进 就 是 分 配给 两 个 或 多 个 用 户 至 
少 有 一 个 角色 。 因 此 ,我 们 有 rx(2xn) = on SOR, 我们 也 假设 c,<c,。 然 而 ， 即 
使 有 了 这 个 简化 ， 在 动态 和 敏捷 社区 中 实现 访问 控制 水 平 ， 所 需 的 策略 数量 也 可 能 是 难 
以 承受 的 。 我 们 以 云 为 中 心 的 策略 框架 解决 了 这 一 问题 ,为 机 构 提 供 支 持 和 扩展 其 访问 
控制 策略 ， 以 满足 日 益 增 长 的 安全 需求 的 能 力 。 
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28.2.3.2.2 编辑 策略 引擎 

编辑 策略 在 将 文档 释放 给 用 户 之 前 ， 会 识别 和 删除 文档 中 的 敏感 信息 。 与 限制 访问 
的 访问 控制 策略 不 同 ， 编 辑 策略 鼓励 信息 共享 ， 确 保 在 向 用 户 的 查询 提供 最 终 的 RDF 
图 〈 称 为 修改 图 ) 之 前 ， 敏 感 或 专 有 信息 被 删除 (或 模糊 ) 。 编 辑 策略 依靠 转换 操作 ， 
来 规避 任何 标识 或 敏感 信息 。 目 前 支持 的 策略 引擎 依赖 于 图 形 转换 技术 ， 该 技术 基于 网 
形 语 法 方法 (在 本 章 参 考 文献 [EHRI06] 、[ROZE97] 中 提出 ) 。 基 本 上 ， 在 有 向 标记 
的 RDF 图 上 应 用 编辑 策略 有 两 个 步 又: 中 识别 我 们 要 保护 的 原始 RDF 图 中 的 资源 (或 
子 图 ) ， 可 以 使 用 图 查询 ( 即 ， 配 有 正则 表达 式 的 查询 ) 完成 ; @ 对 此 进行 修订 策略 ， 
以 图 形 转换 规则 的 形式 识别 资源 。 本 章 参考 文献 【CADE11b] 中 使 用 此 图 形 转 换 的 实 
现 方 法 ， 来 修正 原始 图 。 
28. 2. 3. 2. 3 信息 共享 策略 引擎 

言 息 共 享 策略 允许 机 构 确定 其 资源 共享 的 背景 ， 或 与 其 他 机 构 的 资源 相 结合 。 信 息 
共享 策略 引擎 具有 用 于 同时 在 两 个 或 多 个 RDF 图 形 上 ， 处 理 查询 请 求 信 息 的 逻辑 。 我 
们 使 用 以 下 SPARQL 查询 来 说 明 这 一 点 。 

SELECT B FROM NAMED uril FROM NAMED uri2 WHERE P 

其 中 P 是 图 形 模式 , B 是 出 现在 P 中 变量 的 元 组 ，wil 和 uri2 是 两 个 资源 RI 和 R2 
的 可 参 引 URI。 资 源 RI 和 R2 可 能 来 自 同 一 机 构 ， 以 防 机 构 严格 根据 保密 性 问题 对 其 资 
源 进 行 分 区 ， 或 者 分 别 属于 机 构 1 和 机 构 2 的 两 个 机 构 。 因 此 ， 这 些 资源 中 的 每 一 个 资 
源 都 可 以 定义 个 人 信息 共享 策略 规则 。 我 们 定义 一 个 运算 符 O@， 以 便 一 个 信息 共享 策略 
通过 unl © uri2 评估 。 运 算 符 @ 〇 可 以 通过 RDF 图 形 实现 为 图 操作 。 需 注意 ，Q 可 以 是 
下 面 一 个 运算 符 : Qn, UL 或 - ,并且 可 以 被 应 用 于 原始 RDF 图 ,或 前 一 个 由 运算 符 
得 出 的 图 。 为 了 执行 运算 符 O©， 我 们 以 递归 方式 定义 图 形 。 

B = 定义 为 一 个 图 。 

B 图 形 集 合 在 交 、 并 和 集合 差 运 算 下 是 封闭 的 。G, fIG IPSAM, C [G, GN 6, 
和 G, -G6, 是 图 形 ， 如 果 teG，[G, 那 么 teG 或 teG,; 如 果 teG, [G6,, 那么 teG 且 tie0,; 
如 果 teG, -G,, PBAteG Htet, 

以 下 RDF 图 表 列 出 了 组 合 策略 配置 文档 的 三 元 组 ， 包 含 具 有 共享 两 个 资源 的 散 入 
逻辑 策略 ，R1 和 R 分 别 属于 两 个 机 构 ， 即 机 构 1 和 机 构 2。 

# entity 

<http://policy.org/entity/pol#Combined1 1 1» 


pol:owner <http://policy.org/entity/pol#Agencyl > ; 
pol:rule <http://policy.org/entity/pol#Cprulel_1 1 1». 
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# mappings 
<http://policy.org/entity/pol#Cprulel 1 1 1» 
pol:agency <http://policy.org/entity/pol#Agency2 > ; 
pol:operator “UNION” ; 
pol:type "combined1l". 


这 一 策略 工作 于 机 构 级 别 中 。 例 如 ， 机 构 1 将 所 有 资源 作为 与 机 构 2 所 有 资源 的 联 
盟 共享 。 策 略 类 型 允许 机 构 具 有 共享 模式 。 类 型 组 合 1 提供 了 在 机 构 级 别 上 的 共享 ， 而 
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7) 云 计算 开发 与 安全 
另 一 种 策略 类 型 组 合 2， 可 以 更 精确 地 控制 机 构 1 如 何 使 用 机 构 2 的 资源 分 类 ， 来 确定 
机 构 1 的 资源 。 换 句 话 说， 信息 共享 策略 可 以 包含 有 关机 构 的 上 下 文 信息 ， 以 及 资源 层 
面 每 个 资源 的 元 数据 。 以 下 显示 了 我 们 信息 共享 策略 的 两 种 策略 类 型 ; 

1) 组 合 1，Vrl e Agencyl, Yr2 e Agency2, FA rl Ur2, 则 该 策略 指出 机 构 1 将 所 
有 资源 作为 资源 联合 与 机 构 2 共享 。 

2) 组 合 2，rl ，rl…，rl, eAgencyl, Ħ rl, [72, rl, V 12 Vr2 e hgency2。 这 项 策 
略 提供 更 精细 的 控制 。 
28.2.3.2.4 溯源 策略 引擎 

有 时 ， 当 定义 策略 时 ， 需 要 考虑 RDF 图 中 三 元 组 之 间 的 关系 。 目 前 讨论 的 3 种 策 
略 都 没有 解决 RDF 图 中 不 同 路 径 敏感 信息 隐 含 的 情况 。 本 节 我 们 将 探讨 其 他 策略 引擎 。 
重点 是 对 策略 引擎 进行 定义 ， 以 适应 访问 控制 的 执行 和 基于 溯源 图 编辑 策略 。 我 们 将 基 
于 这 些 策 略 引 警 的 逻辑 ( 见 本 章 参考 文献 [CADElla]), ， 讨 论 关 于 溯源 的 访问 控制 策 
略语 言 ， 和 如 何在 溯源 上 执行 编辑 ( 见 本 章 参考 文献 【CADE12] ) 。 我 们 将 首次 给 出 一 
个 溯源 图 的 例子 ， 以 及 可 能 存在 于 样 例 渊 源 图 中 的 来 源 信 息 的 类 型 。 然 后 我 们 将 简要 介 
绍 在 济源 图 中 执行 策略 背后 的 一 些 理 论 。 

28.3 展示 了 一 个 情报 示例 ， 使 用 RDF 表示 的 渊源 图 ， 通 过 位 于 一 些 不 友好 领域 
的 服务 器 ， 概 述 了 文档 流 (或 在 男 一 个 机 构 构 成 潜在 威胁 ) 。 这 个 文档 是 给 记者 的 。 该 
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图 28.3 原始 图 (得 到 了 Springer 这 一 科学 和 商业 媒体 的 允许 ， 内 容 来 自 : Cadenhead, T. , 
Kantarcioglu, M. 和 Khadilkar, V. , Design and Implementation fo a Cloud - Based 
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溯源 图 的 内 容 可 用 于 评估 文档 起 源 的 服务 器 〈( 即 ， 示 例 图 中 的 过 程 ) 的 可 信赖 性 。 这 
个 例子 溯源 图 也 显示 实际 来 源 的 基本 骨架 ， 其 通常 只 用 上 下 文 信息 的 RDF 三 元 组 来 注 
释 ， 例 如 ， 时 间 和 位 置 。 应 注意 到 ， 谓 词 ( 即 弧 ) 用 OPM 抽象 谓词 ( 见 本 章 参 考 文献 
[MORE10]) 标注 标签 ， 最 终 报 告 可 以 追溯 到 CIA 代理 。 
图 28. 2 中 图 形 能 入 的 信息 表示 一 个 有 向 RDF 图 。 图 28. 3 的 原始 路 径 定 义 如 下 : 
定义 28.1 
(原始 路 径 ) 给 定 一 个 来 源 图 ， 一 个 原始 路 径 (spo) 是 一 个 路 径 * o, WFK 
源 词 汇 表 V， 使 用 正则 表达 式 定 义 。 
定义 28.2 
(正则 表达 式 ) SUN V 中 的 术语 字母 ， 那 么 正则 表达 式 集合 RE (X) 可 以 归纳 
定义 如 下 : 
* Vee X,xe RE(Z); 
Xe RE(X) 
ee RE(3); 


If Ae RE(Z) and Be RE(Z) then: 
A|B, AIB, A , A*, A? e RE(X) 


符号 | 和 符号 /分 别 被 解释 为 逻辑 或 和 组 合 。 
我 们 的 目的 是 定义 两 个 节点 之 间 的 路 径 ， 其 边缘 配备 有 任意 长 度 的 路 径 ， 包 括 长 度 
为 0 或 + ， 或 者 至 少 为 长 度 为 1 的 路 径 的 。 因 此 ， 对 于 两 个 节点 x，y， 和 谓词 名 p，x% 






































(一 >)'y 和 x (+) *y; 是 6 中 的 路 径 。 
使 用 正则 表达 式 扩展 的 SPARQL 查询 ( 见 本 章 参考 文献 [HARR10] ) ， 可 以 定义 图 
28.3 中 原始 图 的 资源 (或 子 图 ) ， 如 下 所 示 : 

例 28.1 (原始 图 路 径 查 询 ) 


Select ?x 
{ex:PubRptl arq:OnPath(“([opm:WasGeneratedBy]/ 
[opm:WasTriggeredBy]/[ex:location])” ?x).] 


此 查询 将 返回 该 位 置 ， 并 绑 定 到 变量 x， 还 用 于 确定 原始 报告 的 破解 (和 泄露 ) 起 
源 。 这 也 可 以 提醒 策略 设计 者 ， 在 其 各 自 的 机 构 中 为 报告 和 服务 需 添 加 适当 的 策略 。 
28.2.3.2.5 策略 序列 

在 一 个 机 构 的 资源 上 执行 策略 会 产生 一 个 策略 序列 。 特 别 地 ， 受 保护 的 资源 可 以 使 
用 多 个 策略 引擎 和 策略 类 型 的 服务 。 每 个 策略 类 型 生成 其 输入 RDF 图 的 新 子 图 。 更 要 
注意 的 是 ， 策 略 的 效果 直接 取决 于 它 接收 作为 输入 的 RDF 图 。 此 外 ， 这 个 策略 可 能 与 
该 策略 则 在 实现 的 原始 效果 不 同 。 序 列 通过 一 系列 转换 获取 原始 输入 图 ， 直 到 最 终 的 
RDF 图 返回 给 用 户 。 需 要 注意 的 是 ， 返 回 特定 RDF 三 元 组 的 策略 规则 (实现 为 SPAR- 
QL 查询 ) 的 成 功 ， 取 决 于 在 策略 序列 中 应 用 规则 的 转换 步 又 。 我 们 使 用 以 下 SPARQL 
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查询 来 说 明 这 一 点 : 
CONSTRUCT G WHERE P, 
G 是 一 个 新 构造 的 图 ， 其 中 包含 一 组 满足 输入 图 中 条 件 P 的 三 元 组 。 保护 以 下 RDF 
三 元 组 的 策略 ， 
<http://cs.utdallas.edu/semanticweb/Prov-AC/agency#agent_1 > 
foaf:name “John brown”; 
foaf:projectHomepage <http://www.agency1.gov/>. 


will fail if either the name or project home page triple was earlier removed or 
altered by a previous policy rule. 


框架 中 的 策略 优先 功能 有 助 于 机 构 确 定 其 策略 的 顺序 。 在 用 户 接口 层 中 ， 机 构 配置 
策略 的 顺序 。 策 略 序列 随后 存储 在 RDF 序列 文件 中 (使 用 RDF 规范 “rdf: seq”). “4 
一 个 查询 被 评估 时 ， 策 略 框架 将 以 此 按照 预定 的 顺序 调用 每 个 策略 。 
28.2.3.2.6 规则 序列 

以 类 似 的 方式 ， 可 以 使 用 一 组 规则 来 实现 策略 。 例 如 ， 要 完全 修改 共享 资源 ， 机 构 
可 能 需要 单独 的 规则 来 修复 RDF 图 中 每 个 敏感 的 三 元 组 。 当 三 元 组 〈 或 一 组 三 元 组 ) 
在 输入 图 中 符合 某 些 指定 标准 时 ， 每 个 规则 都 会 被 触发 。 需 要 注意 的 是 ， 每 条 规则 都 会 
转换 共享 资源 的 当前 状态 。 因 此 ， 规 则 的 每 个 排序 都 将 影响 最 终 图 (也 称 为 修订 图 ) 。 
28.2.3.3 数据 层 

数据 层 是 连接 工厂 ， 它 用 作 创 建 连接 对 象 的 外 观 。 这 些 连 接 对 象 向 策略 设计 者 公开 
与 公共 方法 相同 的 属性 (功能 上 ) 。 这 使 得 策略 设计 人 员 更 容易 专注 于 策略 引擎 设计 。 
策略 设计 人 员 调 用 RDF 策略 工厂 ， 该 工厂 返回 一 个 RDF 模型 对 象 。 这 个 RDF 模型 对 象 
由 连接 存储 支持 ， 可 以 是 一 个 本 地 连接 、 关 系数 据 库 连 接 或 云 连 接 。 在 注册 过 程 中 ， 机 
构 有 机 会 决定 其 存储 资源 和 配置 文件 的 位 置 。 建 议 将 较 小 的 配置 文档 存储 在 本 地 磁盘 
(或 本 地 数据 库 ) 中 ， 以 便 快 速 访问 。 本 地 连接 消耗 较 低 的 带宽 ， 提 供 实时 访问 ， 并 在 
部 署 之 前 实现 开发 。 但 是 ， 机 构 可 能 决定 将 它们 存储 在 私有 云 上 (或 者 一 个 远程 数据 
库 服务 器 上 )， 以 利用 其 中 的 附加 保护 。 

连接 工厂 也 能 使 机 构 将 资源 存储 在 任何 云 基础 设施 中 。 例 如 ， 机 构 的 资源 可 以 驻 留 
在 私有 云 、 社 区 云 或 公有 云 上 。 私 有 云 部 署 提 供 更 多 的 控制 ， 因 为 机 构 可 以 掌管 自己 的 
云 。 社 区 云 提供 给 特定 社区 的 独占 访问 ， 向 来 都 符合 合作 机 构 的 共同 利益 。 公 有 云 对 公 
众 开 放 ， 由 于 对 上 传 到 公有 云 上 的 数据 失去 控制 ， 因 此 容易 出 现 更 多 的 漏洞 。 机 构 可 以 
选择 混合 连接 并 且 同 时 使 用 多 个 部 署 〈 例 如 ， 混 合 云 模型 ) 。 


28.2.4 我 们 策略 引擎 框架 的 特点 
在 下 面 的 小 节 中 ， 我 们 将 介绍 了 我 们 策略 引擎 框架 的 一 些 新 特征 。 
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28.2.4.1 策略 互惠 

策略 互惠 使 机 构 能 够 在 知道 其 他 机 构 、 资 源 、 策 略 规范 的 情况 下 制定 策略 。 通 过 注 
册 过 程 使 其 成 为 可 能 ,其 中 机 构 可 以 使 用 自己 的 元 数据 、 资 源 和 相关 策略 。 以 下 讨论 提 
供 策略 互惠 的 方案 。 

如 果 机 构 1 希望 与 机 构 2 分 享 其 资源 ， 那 么 机 构 2 也 与 其 分 享 资源 。 但 当前 的 访问 
控制 和 编辑 策略 不 提供 此 互惠 性 。 我 们 的 框架 提供 信息 共享 策略 ， 人 允许 机 构 人 员 定 义 基 
于 机 构 互 惠 互利 的 策略 。 我 们 在 下 面 提供 两 个 信息 共享 策略 的 例子 : 

1. Vrl € Agencyl, Vr2 € Agency2, rl U 72. 

这 一 策略 规定 机 构 1 分 享 所 有 资源 与 机 构 2 的 任意 资源 组 成 资源 的 联合 (BO e (UI). 

2. rlyrl;,..., rl, nAgencyl , rl, U r2, rl; A r2, Vr2 € Agency2. 

这 一 策略 提供 了 更 精细 的 控制 水 平 ， 并 定义 组 合 运 算 符 ,， © ein ,U1。 
28.2.4.2 条 件 策略 

策略 互惠 的 结果 是 允许 使 用 有 条 件 的 共享 策略 。 例 如 ， 机 构 1 将 其 资源 与 机 构 2 分 享 的 
前 提 是 机 构 2 不 与 机 构 3 分 享 机 构 1 的 资源 ， 我 们 在 下 面 提供 一 个 共享 策略 的 示例 信息 : 

1. Vrl e Agencyl, Vr2 € Agency2, Agencyl 定义 了 rl A 12. I£ Vr3 € Agency3, Bb 

- Agency? ANB RE TERM rl 个 73 的 共享 策略 ， 


- Agency2 AFB AE SCEERE UII 71 c 72 © 13 的 共享 策略 ， 
Oe {U, Oth 


28.2.4.3 策略 对 称 性 
策略 互惠 的 另 一 个 结果 是 在 分 享 策略 时 具有 对 称 性 。 例 如 ， 机 构 1 与 机 构 2 用 操作 
符 口 共享 资源 。 假 设 机 构 2 也 分 享 资源 与 机 构 1 使 用 同样 的 操作 符 ©。 我 们 在 下 面 提供 
信息 共享 策略 的 示例 : 
1. Vrl e Agencyl, Vr2€ Agency2, Agencyl, rl O r2 4HR Agency2 also uses 
72 Url. 


28.2.4.4 制定 和 衡量 策略 
为 了 在 信息 环境 中 实现 机 动 性 的 自由 ， 并 提供 信息 的 力量 来 确保 任务 的 完成 ， 一 个 
机 构 应 该 有 能 力 根据 情况 快速 制定 策略 并 进行 部 署 。 接 下 来 ， 我 们 将 讨论 在 制定 策略 期 
间 和 之 后 可 以 使 用 的 功能 。 
28.2.4.4.1 策略 制定 
机 构 1 希望 模拟 现实 环境 并 创建 测试 场景 ， 以 便 可 视 化 每 个 策略 配置 的 结果 。 我 们 
的 策略 框架 提供 3 种 配置 : 用 于 开发 和 测试 的 独立 版 本 ; @@ 关 系数 据 库 支持 的 版 本 ; 
@ 实 现 高 可 用 性 和 扩展 性 的 基于 云 计算 的 版 本 ， 同 时 保持 低 的 配置 和 操作 成 本 。 
28. 2.4. 4. 2 排序 效果 
机 构 1 希望 根据 用 户 凭证 ， 将 结果 集 返 回 到 用 户 的 查询 。 策 略 序列 特性 可 以 通过 排 
列 策略 以 及 其 各 自 的 规则 ， 来 配置 不 同 的 结果 。 
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(0). 去 计算 开发 与 安全 





28.2.4.4.3 ”高 速 弹性 

机 构 1 能 识别 其 现 有 策略 配置 中 最 新 的 安全 漏洞 ， 并 希望 以 更 精细 的 粒度 来 支持 策 
略 以 及 扩展 (或 扩大 其 ) 现 有 策略 。 我 们 的 策略 引擎 提供 了 所 有 策略 都 要 实施 的 策略 
接口 。 因 此 ， 我 们 可 以 根据 需要 添加 更 新 的 策略 。 另 外 ， 我 们 的 策略 引擎 赋予 机 构 快 速 
的 弹性 ， 因 此 我 们 的 策略 框架 可 用 的 功能 看 起 来 是 无 限 的 。 
28.2.4.4.4 位 置 独立 性 

机 构 1 希望 其 资源 存储 位 置 更 靠近 其 使 用 的 地 方 ， 但 策略 层 几乎 不 做 改变 。 我 们 的 
策略 引擎 提供 位 置 独立 性 ， 即 使 策略 引擎 对 资源 的 确切 位 置 没 有 控制 或 未 知 ， 也 可 以 使 
用 连接 管理 器 通过 指定 位 置 来 访问 资源 。 注 意 一 个 机 构 的 资源 可 以 在 任何 云 、 任 何 地 理 
位 置 。 通 过 可 参 引 URI， 对 定位 任何 资源 的 能 力 提供 了 很 大 的 灵活 性 。 
28.2.4.4.5 部 署 模式 

机 构 1 可 以 利用 不 同 的 部 署 模 式 。 比 如 ， 私 有 云 、 混 合 云 、 社 区 云 或 公有 云 。 连 接 
管理 器 允许 机 构 根 据 不 同 的 风险 因素 和 目标 ， 在 连接 类 型 列表 中 进行 选择 ， 以 保护 数据 
的 机 密 性 。 
28.2.4.5 合理 利用 资源 

起 源 提供 了 关于 信息 被 操纵 的 原因 以 及 对 信息 操纵 来 源 追 踪 的 解释 。 这 确立 了 机 构 
之 间 的 信任 ， 从 而 促进 了 共同 目标 的 伙伴 关系 。 

机 构 1 要 求 机 构 2 合理 利用 资源 R2。 目 前 商业 访问 控制 策略 主要 用 于 保护 单个 数 
据 项 目 ， 而 目前 的 编辑 策略 是 为 了 修改 文本 和 图 像 而 设计 的 。 我 们 的 策略 引擎 允许 机 构 
人 员 定 义 策略 来 源 。 因 此 ， 机 构 2 可 以 提供 溯源 信息 给 机 构 1， 但 是 使 用 访问 控制 和 编 
辑 策略 保护 它 。 
28.2.4.6 策略 规范 和 执行 

我 们 的 架构 设计 支持 高 级 策略 规范 ， 从 而 将 业务 层 与 特定 的 策略 分 开 。 

机 构 1 希望 用 高 级 语言 (例如 XACML) 来 表达 策略 ， 并 且 不 选择 学 习 RDF 或 其 任 
何 变 体 。 该 框架 提供 用 户 和 策略 引擎 层 之 间 的 Web 接口 层 ， 从 而 使 用 户 可 以 独立 于 策 
略 的 实际 情况 来 指定 其 策略 。 一 个 合适 的 适配器 ， 也 成 为 数据 转换 器 ， 将 把 每 个 高 级 策 
略 规范 转换 成 为 用 适当 的 RDF 表示 的 适当 策略 ， 从 而 保护 机 构 的 资源 。 

可 以 使 用 比 RDF 更 具有 表达 能 力 的 语言 来 指定 策略 ， 比 如 通过 使 用 形式 词汇 扩展 
RDF， 特 别 是 OWL Fifa. OWL 具有 基于 描述 逻辑 的 形式 语义 ， 这 是 一 阶 逻 辑 的 可 判 
断 片 段 。 因 此 ， 通 过 支持 这 种 适配器 模式 ， 我 们 的 框架 被 扩展 ， 以 处 理 OWL 中 指定 的 
语义 策略 ， 高 级 策略 可 以 使 用 现 有 或 定制 的 转换 器 ， 转 换 成 适合 的 OWL 子 语言 。 
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28.3 总结 和 展望 





本 章 介绍 了 在 云 中 运行 的 第 一 个 AS 框架 的 设计 和 实现 。 如 前 所 述 ， 这 个 想法 是 每 
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第 28 章 基于 语义 云 信 息 共 襄 保 障 系 统 的 投 计 与 实现 《3 





























个 组 织 将 其 数据 和 信息 共享 策略 存储 在 云 中 ， 根 据 策略 共享 信息 。 我 们 的 框架 由 一 个 以 
信息 共享 为 目的 的 策略 引擎 ， 以 及 一 个 在 云 中 存储 和 查询 数据 的 安全 数据 引擎 组 成 。 我 






































们 还 用 示例 策略 描述 了 我 们 系统 的 运行 。 
































我 们 的 框架 是 灵活 的 ， 可 以 添加 额外 的 数据 源 和 云 。 此 外 ， 通 过 使 用 RDF 作为 策 


略 引擎 ， 我 们 可 以 添加 更 复杂 的 信息 共享 策略 。 这 是 我 们 系统 的 主要 优势 之 一 。 未 来 的 














发 展 方向 包括 制定 和 推理 更 复杂 的 策略 ， 以 及 在 现实 环境 中 测试 我 们 的 系统 。 
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第 七 部 分 总 结 








本 部 分 描述 了 我 们 为 实现 
意 软件 检测 、 内 部 威胁 检测 和 


安全 应 用 程序 而 开发 的 云 实验 系统 。 这 些 应 用 程序 包括 恶 
信息 共享 保障 。 





E25 章 中 ， 我 们 介绍 了 EMPC， 一 种 用 于 无 限 长 度 、 概 念 漂流 的 自动 分 类 的 新 





型 集成 学 习 技 术 。 我 们 已 经 说 
据 流 和 僵尸 网 络 流 媒 体 样 本 ， 
的 实现 是 在 云 上 进行 的 。 








在 第 26 章 中 ,我 们 讨论 了 内 部 威胁 检测 的 方法 。 我 们 将 内 部 威胁 和 它们 之 间 的 ; 





























明 ， 通 过 将 EMPC 应 用 于 从 多 态 亚 意 软 件 中 获取 的 真实 数 
比 其 他 流 数据 分 类 技术 要 拥有 更 好 的 检测 精度 。 我 们 算法 
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信 作 为 RDF 图 ， 然 后 通过 查询 和 挖掘 图 来 抽取 信息 。 另 外 ， 我 们 也 提供 了 一 个 基于 云 





的 内 部 威胁 检测 的 综合 框架 。 











在 第 27 章 ， 描 述 了 我 们 开发 的 基于 云端 信息 共享 安全 系统 的 CAISS 方法 。 在 实现 
CAISS 时 利用 了 我 们 开发 的 几 种 技术 以 及 开源 工具 。 我 们 也 描述 了 一 种 理想 的 基于 云 计 























算 的 信息 ATA 从 享 保障 系统 的 设计 ， 


它 叫 作 CAISS + + 。 





在 第 28 章 中 ,我 们 描述 了 运行 在 语义 云 中 的 第 一 个 信息 共享 保障 框架 的 设计 与 实 








。 语 义 云 是 向 消费 者 提供 语 
Eae Ae 
于 云 的 信息 共享 框架 。 该 框架 











义 Web 服务 的 云 。 这 个 想法 是 为 每 个 组 织 将 其 数据 和 信 
eb 

















储 和 查询 数据 的 安全 数据 引擎 
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m 我 们 也 用 策略 的 示例 描述 了 


第 八 部 分 迈 癌 可 信赖 的 云 


第 八 部 分 简介 


前 面 大 部 分 章节 的 讨论 都 集中 在 云 的 安全 性 上 。 需 要 注意 的 是 ， 虽 然 安 全 性 通常 包 
括 机 密 性 、 完 整 性 和 信任 ， 但 是 我 们 对 安全 性 关注 的 重点 只 是 机 密 性 。 在 第 八 部 分 ， 我 
们 将 讨论 开发 可 信赖 云 的 其 他 方面 ， 包 括 信任 、 隐 私 和 完整 性 。 

第 八 部 分 由 三 章 组 成 : 第 29 章 、 第 30 章 和 第 31 章 。 第 29 章 讨 论 信任 管理 和 云 服 
务 。 信 任 基本 上 是 关于 你 对 于 一 个 人 说 什么 ， 或 者 对 那个 人 可 以 保留 多 少 信心 。 信 任 也 
可 以 衡量 一 个 人 是 否 会 履行 自己 的 承诺 。 一 般 来 说 ， 在 向 某 人 发 出 信息 之 前 ， 即 使 他 有 
权 从 我 这 里 获取 这 些 信 息 ， 我 也 要 确定 他 是 否 可 以 信任 。 第 30 章 专注 于 隐私 和 云 服务 。 
需要 注意 的 是 ， 目 前 已 经 提出 了 关于 隐私 的 几 种 不 同 的 定义 。 我 们 在 这 里 使 用 的 定义 
是 ， 一 个 人 有 权 决 定 要 公开 什么 信息 。 因 此 ， 任 何 组 织 违 反 本 人 意愿 就 违反 了 本 人 的 隐 
私 。 第 31 章 重 点 介绍 完整 性 和 云 服 务 。 我 们 的 完整 性 包括 数据 的 准确 性 ， 以 及 数据 质 
量 和 数据 来 源 。 
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第 29 章 信任 管理 和 云 计算 


29.1 概述 








本 章 重点 介绍 云 服 务 的 信任 管理 。 在 开发 的 安全 系统 中 已 经 对 信任 进行 了 大 量 的 讨 
论 。 早 期 大 部 分 的 重点 是 用 可 信和 软件 来 开发 高 度 保障 的 系统 。 例 如 ， 在 设计 时 ， 要 根据 
可 信 计 算 机 系统 评估 标准 (Trusted Computer Systems Evaluation Criteria, TCSEC) , TE Al 
级 进行 评估 多 级 系统 时 ， 该 软件 必须 经 过 正式 的 验证 过 程 ， 以 确保 没有 隐蔽 的 通道 。 这 
样 的 软件 被 称 为 可 信 软 件 。 然 而 ， 随 着 数据 和 应 用 程序 的 安全 问题 不 断 增 多 ， 这 在 过 去 
十 年 中 变 得 尤为 突出 ， 重 点 是 信任 个 人 或 代表 个 人 行事 的 过 程 。 在 这 里 ， 我 们 一 定 要 确 
定 必须 放 在 个 人 身上 的 信任 。 此 外 ， 数 据 也 必须 被 分 配 信任 值 。 也 就 是 说 ， 如 果 数 据 从 
可 靠 的 个 人 或 来 源 (例如 文件 或 数据 库 ) 发 出 ,那么 数据 可 能 就 具有 高 信任 值 。 

云 服务 也 需要 有 可 信 度 从 而 进行 某 些 操作 。 执 行 命令 和 控制 以 及 患者 监控 等 关键 功 
能 的 云 服 务 ， 比 其 他 像 查 找 销售 鞋 类 公司 的 云 服 务 要 更 加 有 具有 可 信赖 性 。 在 本 章 中 ， 我 
们 将 讨论 与 信任 管理 相关 的 问题 ， 然 后 讨论 基于 信任 的 云 服 务 。 我 们 还 将 讨论 对 语义 云 
服务 的 信任 。 需 要 注意 的 是 ， 这 种 云 服 务 将 语义 Web 技术 用 于 如 数据 、 策 略 表 示 和 推 
理 等 任务 。 

本 章 的 结构 如 下 。29.2 节 将 讨论 信任 管理 ,包括 信任 个 人 和 数据 。 特 别 是 在 
29.2.1 节 对 信任 管理 和 信任 协商 进行 讨论 。 需 要 注意 的 是 ， 信 任 和 风险 之 间 有 一 定 的 
关系 。 也 就 是 说 ， 如 果 一 个 人 是 不 值得 信任 的 ， 而 你 又 必须 给 他 /她 一 些 数据 ， 那 么 你 
就 正在 冒险 。 因 此 ，29. 2. 2 节 讨 论 相关 信任 和 风险 的 一 些 发 展 。29. 2. 3 节 讨 论 基于 声 
誉 的 信任 。 然 后 在 29. 3 节 ， 我 们 将 讨论 信任 管理 和 云 服 务 。 尤 其 是 作为 云 服务 的 信任 
管理 将 在 29. 3. 1 节 中 讨论 。29. 3. 2 节 将 讨论 对 云 服务 的 信任 。 在 29. 3 节 对 本 章 进 行 总 
结 。 图 29. 1 说 明了 信任 的 各 个 方面 。 


可 信 的 代理 商 
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可 信 的 数据 指定 和 协商 信任 


图 29.1 信任 的 各 个 方面 
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29.2 信任 管理 


29.2.1 信任 管理 与 协商 


在 讨论 信任 管理 的 各 个 方面 ， 以 及 描述 与 语义 云 服 务 的 关系 之 前 ， 我 们 需要 确定 什 
么 是 信任 。 信 任 是 由 哲学 家 定义 的 ， 它 涉及 一 个 人 对 另 一 个 人 寄予 多 少 价值 。 这 个 值 取 
决 于 这 个 人 是 否 可 以 保密 或 进行 安全 的 活动 等 。 在 基于 对 某 人 信任 的 基础 上 ， 从 某 人 发 
出 的 数据 也 将 被 分 配 一 个 信任 值 。 稍 后 我 们 会 处 理 数 据 信 任 。 首 先 ， 我 们 将 重点 关注 个 
人 的 信任 。 我 们 可 以 扩大 论点 ， 不 仅 包括 个 人 ， 还 包括 一 群 人 ， 甚 至 一 个 网 站 或 组 织 。 

信任 工作 最 初 着 重 于 为 确保 软件 符合 规范 ， 而 必须 进行 的 验证 或 测试 的 数量 。 如 果 
软件 有 一 个 特洛伊 木马 ， 那 么 它 就 是 不 值得 信任 的 。 如 果 软 件 是 可 信赖 的 ， 则 根据 用 于 
信任 软件 的 技术 (例如 ,形式 验证 与 测试 )， 就 可 以 确保 软件 是 安全 的 。 后 来 ， 随 着 数 
据 安全 越 突 出 ， 信 任 被 分 配给 个 人 或 组 织 。 在 这 种 情况 下 ， 使 用 两 种 方法 来 定义 信任 : 
一 个 是 基于 凭证 ， 另 一 个 是 基于 声誉 。 在 信任 的 研究 界 ， 这 两 种 学 派 都 受到 重视 。 
Bertino 及 其 团队 对 基于 凭证 的 信任 管理 进行 了 广泛 的 研究 。 研 究 的 想法 是 交换 个 
人 之 间 的 赁 证， 根据 赁 证 的 类 型 ， 双 方 之 间 建 立信 任 。 和 凭证 最 初 是 通过 一 些 赁 证 授权 机 
构 获 得 的 。 例 如 ， 如 果 约 翰 想 要 看 到 简 的 个 人 资料 ， 他 必须 向 简 出 示 他 的 赁 证， 该 凭证 
由 一 个 凭证 机 构 发 给 他 。 另 一 项 研究 ， 着 重 以 声誉 为 基础 的 信任 管理 ， 是 Winslet 及 其 
同事 以 及 Winsborough 等 人 的 工作 。ACM 、SACMAT AI IEEE 策略 等 会 议 记 录 中 出 现 了 许 
多 基于 凭证 信任 管理 的 论文 ( 男 见 本 章 参考 文献 [BERT03] [ YU03 ] 、[ WINS04 ] ) 。 
在 基于 声誉 的 系统 中 ,信任 是 根据 他 以 前 的 行为 获得 的 声誉 来 分 配 的 。 例 如 ， 如 果 
适合 的 职位 是 老师 ， 那 么 听 到 过 简 的 人 就 将 会 讨论 她 的 声誉 ， 如 她 不 可 靠 ,， IF ABE T 
的 课程 。 如 果 是 这 样 ， 那 么 简 作为 老师 的 声誉 并 不 好 。 所 以 ， 简 不 会 被 信任 而 得 到 
工作 。 我 们 在 日 常生 活 中 一 直 使 用 声誉 。 也 就 是 说 ， 我 们 基于 其 声誉 来 信任 个 人 或 
组 织 。 通 常 很 难 去 提高 声誉 。 然 而 ， 这 并 不 会 损害 声誉 ， 也 不 会 造成 信任 价值 的 降低 。 
基于 声誉 的 信任 系统 在 本 章 参 考 文献 [SHMA] 中 讨论 。 第 三 种 类 型 的 信任 是 确定 数据 
的 置信 和 度 值 。 换 名 话说 ， 你 对 数据 抱 有 多 大 程度 的 信任 ”为 了 给 出 答案 ， 我 们 需要 确定 
谁 创造 了 数据 ? 谁 访问 过 数据 ? 数据 是 否 经 过 不 可 信 的 组 织 ? 在 第 31 章 讨 论 数据 质量 
和 数据 来 源 时 ， 我 们 将 讨论 数据 信任 。 

一 旦 信任 值 被 分 配 ， 管 理 信 任 需 要 什么 ? 这 涉及 根据 信任 值 进行 交换 数据 ， 以 及 根 
据 所 接收 或 丢弃 的 凭证 ， 或 改变 的 声誉 ， 来 增加 和 减少 信任 值 。 例 如 ， 如 果 约 输 被 委任 
处 理 一 些 关 键 数 据 ， 然 后 知道 约 输 滥用 了 这 些 数据 ， 那 么 其 信任 值 就 会 降低 。 现 在 ， 出 
现 了 信任 形式 化 和 信任 行为 规范 化 的 研究 。 用 于 信任 管理 的 代数 也 正在 开发 中 。 信 任 管 
理 的 一 个 重要 方面 是 信任 协商 。 在 这 里 ， 双 方 可 以 相互 协商 它们 的 信任 值 和 它们 之 间 要 
共享 的 数据 。 信 任 协商 是 信任 管理 的 重要 研究 领域 ( 见 本 章 参 考 文献 [WINS04] ) 。 信 
任 协商 过 程 如 图 29. 2 所 示 。 
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玛丽 请 求 简 的 文 
EDS 件 ， 简 信任 玛丽 。 
约翰 不 信任 玛丽 






简 将 约翰 给 她 的 
文件 分 享 给 玛丽 
请 求 分 享 给 玛丽 


约翰 相信 简 ， 
他 和 简 分 享 信息 。 


图 29.2 信任 协商 
29.2.2 信任 与 风险 管理 


为 了 管理 数据 共享 的 风险 ， 我 们 需要 了 解 风 险 因 素 。 虽 然 信 任 和 风险 相关 ， 但 它们 
有 区 别 。 例 如 ， 你 对 某 人 越 信 任 ， 你 与 此 人 分 享 的 数据 越 多 。 然 而 ， 也 有 A 医院 信任 B 
医院 的 情况 ， 但 是 A 不 与 B 共享 数据 ， 因 为 B 的 系统 不 安全 。 人 们 也 可 以 这 样 认 为 ， 
由 于 B 的 计算 机 不 安全 ， 所 以 B 不 能 被 信任 。 在 某 些 情况 下 ， 与 不 可 信任 方 共享 数据 
可 能 也 不 会 有 风险 。 例 如 ， 即 使 医院 不 信任 药品 公司 ， 医 院 也 可 以 与 药品 公司 分 享 其 数 
据 ， 以 寻求 治愈 方法 。 换 言 之 ， 有 人 可 能 会 认为 ， 即 使 药品 公司 不 能 适当 地 使 用 数据 ， 
医院 也 会 一 定 程度 上 相信 能 找到 治愈 疾病 方法 的 药品 公司 。 但 是 ， 如 果 数 据 不 敏感 ， 那 
么 分 享 这 些 数据 可 能 就 不 是 一 个 问题 。 因 此 ， 人 们 可 以 把 信任 和 风险 相互 关联 ， 但 是 这 
两 者 是 不 同 的 概念 。 
虽然 提出 了 信任 与 风险 之 间 关 系 的 不 同 模式 ， 但 数据 共享 应 用 中 的 信任 与 风险 之 间 
的 确切 关系 尚未 明确 。 我 们 需要 的 是 制定 信任 和 风险 关系 的 适当 模型 。 信 任 不 是 影响 风 
险 的 唯一 因素 。 我 们 的 研究 涉及 理解 信任 和 风险 ， 并 开发 基于 信任 的 风险 模型 。 为 了 创 
建 基 于 信任 的 风险 模型 ， 我 们 需要 捕获 与 信任 错误 判断 相关 的 所 有 风险 。 此 外 ， 他 指 
出 ， 即 使 风险 很 高 ， 也 要 进行 成 本 效益 分 析 来 确定 是 否 要 分 享 数 据 。 信 任 风 险 管理 如 图 
29.3 所 示 。 



































































































































人 简 向 约翰 请 求 文件 。 

约翰 计算 分 享 文件 的 风险 大 小 。 

风险 取决 于 约翰 对 简 的 信任 。 根 据 风 险 大 小 ， 
约翰 决定 是 否 共享 文件 。 


图 29.3 ”信任 和 风险 
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29.2.3 基于 声誉 的 系统 


可 以 使 用 所 谓 的 声誉 网 络 建立 信任 。 如 本 意 参 考 文献 [COLB03] 所 述 ， 声 誉 的 网 
络 是 一 个 分 布 式 的 基于 Web 的 社交 网 络 。 信 用 评级 从 一 个 用 户 推断 到 另 一 个 用 户 。 个 
人 连接 到 他 们 评价 的 每 个 人 ， 并 导致 大 量 用 户 的 网 络 互联 。 这 里 唯一 的 要 求 是 个 人 应 该 
在 网 络 中 相互 表明 他 们 的 声誉 评级 。 个 人 控制 自己 的 数据 ， 数 据 以 分 布 式 方式 进行 维 
护 。 数 据 可 以 存储 在 任何 地 方 ， 并 通过 共同 的 基础 进行 集成 。 

FOAF ( 见 本 音 参 考 文献 [RDF]) 项 目 说 明了 语义 Web 和 声誉 网 络 之 间 的 关系 。 
本 体 论 词汇 用 于 描述 人 们 及 其 关系 。 这 通过 提供 描述 声誉 关系 的 机 制 得 到 延伸 ， 并 允许 
人 们 评价 另 一 个 人 的 声望 或 可 信 度 。 

我 们 正在 开发 算法 以 推断 声誉 。 
如 本 章 参 考 文 献 [GOLBO3] 所 述 ， 机 构 D 根 据 所 有 输入 决 
向 一 个 人 (来源 ， 提 供 关于 另 一 个 M dS 
人 的 声誉 的 建议 。 信 任 和 声誉 相关 文 
献 包含 许多 不 同 的 研究 指标 。 这 些 指 
标 根据 用 于 进行 计算 的 角度 而 进行 分 
类 。 例 如 ， 全 局 度量 为 网 络 中 的 每 个 
实体 计算 单个 值 ， 而 本 地 度量 计算 网 
络 中 个 人 的 声誉 评级 。 在 全 局 系统 
中 ,实体 将 始终 具有 相同 的 推断 等 
级 。 但 在 本 地 系统 中 ， 可 以 根据 推断 
的 节点 对 实体 进行 评估 。 

声誉 系统 的 一 个 例子 是 Trust 
Mail。 它 是 一 个 消息 评分 系统 ， 并 为 


消息 的 文件 夹 视图 添加 了 声誉 评级 。 
在 用 户 看 到 声誉 评级 后 ， 它 有 助 于 相 


网 站 X 的 声誉 
应 地 对 消息 进行 排序 ， 突 出 了 重要 和 


相关 的 信息 。 图 29.4 所 示 为 声誉 机 构 A 
网 络 。 



















































































































































机 构 C 


网 站 X 的 声誉 









































图 29.4 声誉 网 络 


29.3 信任 和 云 服 务 


29.3.1 信任 管理 即 云 服务 
这 里 有 两 个 方面 的 含义 。 一 个 是 作为 云 服务 或 云 服务 的 集合 实现 信任 管理 。 另 一 个 
是 探索 云 服务 的 信任 管理 。 我 们 勾画 了 将 信任 管理 作为 云 服务 (È Web 服务 ) 实现 的 
情况 ， 如 图 29.5 所 示 。 用 户 向 Web 服务 器 或 CSP 发 出 请 求 以 获取 资源 。 查 询 服 务 将 向 
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云 提供 的 信任 管理 服务 发 出 请 求 ， 以 确定 用 户 的 信任 级 别 。 在 此 信任 级 别 的 基础 上 ， 向 
用 户 提供 适当 的 资源 。 

我 们 也 有 兴趣 使 用 语义 Web 技术 进行 信任 管理 和 协商 。 虽 然 已 经 开发 了 几 种 信任 
策略 语言 ， 但 是 此 处 介绍 利用 XML 作为 策略 所 表示 的 知名 系统 ， 这 是 由 Bertino 及 其 小 
组 在 米兰 大 学 和 普 渡 大 学 开发 的 系统 。 开 发 的 系统 被 称 为 Trust - X, Zé3E XML 的 。 
基于 凭证 的 系统 Trust -X 使 用 基于 XML 的 信任 策略 语言 ( 见 本 章 参 考 文献 
[BERT04] ) 。 回 想 一 下 ， 利 用 语义 Web 技术 来 表示 和 推理 策略 的 云 服务 ， 就 是 语义 云 
服务 。 
虽然 XML 是 一 种 合适 的 策略 语言 ， 但 它 的 缺点 在 于 它 不 能 充分 表示 语义 。 例 如 ， 
M B BUS B 不 信任 C 时 ，A 信任 B, 或 者 有 A 信任 B 且 B 信任 C， 这 样 的 语句 并 不 意味 
着 A 信任 C。 在 XML 中 很 难 表示 这 些 语句 。 需 要 注意 的 是 ， 与 XML 不 同 ，RDF 可 以 表 
示 类 - 子 类 关系 ，OWL 等 语言 也 可 以 表示 如 联合 和 交集 的 关系 。 因 此 ， 我 们 需要 丰富 
的 策略 语言 来 表示 信任 。 此 外 ， 自 9/11 委员 会 报告 (http: // www.9 - 
11commission. gov/report/911Report. pdf) 以 来 ,环境 正在 从 需要 获知 转移 到 需要 分 享 。 
因此 ， 在 这 样 的 环境 中 表示 信任 关系 是 非常 重要 的 。 我 们 需要 策略 语言 来 表示 “紧急 
情况 ”下 的 声明 形式 ， 需 要 共享 所 有 数据 ， 然 后 确定 信任 方面 的 数据 共享 所 产生 的 后 
果 。“Finin 及 其 同事 正在 研究 使 用 REL 等 语言 进行 “需要 分 享 ”的 环境 〈 见 本 章 参考 
文献 [ KAGAO3 ] ) 。 

使 用 基于 语义 Web 的 策略 语言 的 优点 ， 是 可 以 使 用 基于 描述 逻辑 的 推理 能 力 来 推 
理 信任 语句 ， 并 对 未 明确 指定 的 信任 进行 推论 。 人 们 也 正在 探索 Jena 和 Pellet 等 推理 引 
擎 ， 用 于 表示 和 推理 基于 语义 网 络 的 策略 规范 。 在 麻 省 理工 学 院 (Massachusetts Institu- 
te of Technology, MIT) 进行 的 策略 意识 网 络 项 目 ， 也 在 开发 信任 策略 的 规范 语言 和 推 
H52, 

需要 注意 的 是 ,语义 Web 层 中 包括 逻辑 、 证 明和 信任 。 这 种 类 型 的 信任 与 本 章 所 
讨论 的 信任 不 同 。 语 义 Web 的 信任 层 本 质 上 是 关于 语句 可 信和 度 的 推理 。 例 如 ， 你 对 
“约翰 和 人 詹姆斯 是 最 好 的 朋友 ”这 些 声 明 的 信任 度 。 相 信 这 个 声明 取决 于 声明 的 来 源 。 
当 我 们 在 后 面 的 章节 中 讨论 数据 质量 和 来 源 时 ， 我们 将 讨论 此 类 型 的 信任 。 
虽然 现在 有 很 多 关于 策略 语言 规范 的 研究 ， 但 是 网 络 语言 的 优势 在 于 我 们 可 以 利用 
正在 开发 的 推理 工具 来 推理 策略 ， 以 便 我 们 检查 策略 的 一 致 性 。 我 们 也 和 希望 确保 信任 策 
略 不 泄露 分 类 或 私有 的 敏感 信息 。Bertino 和 她 的 工作 组 〈( 见 本 章 参 考 文 献 [ SQUIOG ] ) 
已 经 进行 了 这 些 研究 。 图 29. 5 说 明了 用 于 信任 管理 的 云 服务 ， 而 图 29. 6 为 用 于 信任 管 
理 的 语义 云 服务 。 
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实施 信任 管 
理 作为 云 服务 


应 用 Web 
服务 技术 




















图 29.5 用 于 信任 管理 的 云 服务 
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29.3.2 云 服务 的 信任 管理 


在 前 面 的 小 节 中 ， 我们 讨论 了 云 服务 和 
语义 云 服 务 在 信任 管理 中 的 应 用 。 基 本 上 ， 
这 里 的 想法 是 将 信任 管理 实现 为 云 服 务 ， 使 
用 如 XML、RDF 和 OWL 之 类 的 语言 来 指定 策 


[sse 
实施 信任 策略 
em, 
利用 语义 
略 ， 以 及 基于 描述 逻辑 策略 的 原理 和 调用 云 云 服务 
服务 来 管理 信任 。 在 本 节 中 ， 我们 将 讨论 如 


何 将 信任 管理 技术 应 用 于 云 服务 以 及 语义 云 图 29.6 信任 管理 的 语义 云 服务 
服务 。 需 要 注意 到 ,语义 Web 是 一 种 技术 集 

合 ， 可 以 为 我 们 提供 机 器 可 理解 的 网 页 。 因 此 ， 这 里 面临 的 挑战 是 我 们 如 何 相信 为 获得 机 
器 可 理解 的 网 页 而 进行 的 推理 。 此 外 ， 我 们 会 相信 产生 的 网 页 吗 ? 关于 云 服 务 的 信任 管 
理 ， 这 样 的 想法 是 决定 我 们 对 云 服务 的 信任 度 。 云 服务 是 否 经 过 验证 ?如 果 是 ,认证 级 别 
是 多 少 ? 图 29.7 说 明了 对 云 服务 的 信任 ， 而 图 29. 8 则 说 明了 语义 云 服务 的 信任 。 
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图 29.7 云 服务 的 信任 管理 


| 应 用 信任 策略 


图 29.8 语义 云 服务 的 信任 管理 

语义 云 服务 的 层次 之 一 是 逻辑 、 证 明和 信任 层 。 在 这 里 ,我 们 需要 技术 来 推理 网 页 
的 准确 性 。 我 们 相信 产生 的 数据 吗 ? 我 们 是 否 信任 代表 用 户 的 代理 进行 活动 所 做 出 的 决 
策 ? 另外 ,信任 网 页 还 将 决定 谁 能 生成 网 页 。 如 果 生 成 网 页 的 代理 非常 值得 信赖 ， 那 么 
我 们 可 能 会 对 结果 更 加 信任 。 我 们 将 在 第 30 章 中 讨论 数据 质量 和 数据 来 源 的 这 个 方面 。 

另 一 方面 是 关于 信任 代理 ， 作 为 Web / 云 服务 的 集合 被 实现 ， 其 利用 基于 XML 和 
RDF 的 语义 Web 技术 来 执行 活动 。 我 们 能 相信 代理 人 的 答案 吗 ? 这些 代 理 是 否 在 他 人 
之 间 进 行 信任 协商 ? 也 就 是 说 ， 代 理 之 间 的 信任 基本 上 是 人 与 人 之 间 建 立 的 信任 。 该 f 
任 可 能 取决 于 凭证 或 可 能 基于 声誉 。 例 如 ， 在 提供 旅游 服务 时 ， 代 理 必须 预约 ， 预 订 
店 ， 并 安排 客户 参与 旅游 。 代 表 客 户 行事 的 代理 将 以 XML 或 RDF 阅读 网 页 ， 然 后 联系 
代理 航空 公司 和 酒店 代理 。 第 一 个 代理 商 对 男 一 个 代理 商 的 信任 可 能 取决 于 旅行 社 拥有 
的 凭证 或 声誉 。 

因此 ， 当 我 们 讨论 信任 时 ， 有 两 个 主要 方面 。 一 个 是 对 数据 的 信任 ， 另 一 个 是 对 代 
理 的 信任 。 对 数据 的 信任 将 取决 于 对 代理 的 信任 。 类 似 地 ， 代 理 持 续 销售 值得 信赖 的 数 
据 可 以 被 认为 具有 较 高 的 信任 值 。 
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29.4 总 结 和 展望 























在 本 章 中 ,我 们 讨论 了 信任 管理 ， 及 其 与 云 服 务 和 语义 云 服 务 的 关联 。 我 们 首先 讨 
论 了 信任 管理 的 各 个 方面 ,包括 定义 信任 和 描述 信任 协商 。 然 后 ， 我 们 又 讨论 了 在 语义 
云 服务 的 环境 中 实施 信任 。 此 外 ， 我 们 还 讨论 了 使 用 语义 云 服 务 技术 来 指定 信任 策略 。 

































































最 后 ， 讨 论 了 相关 概念 ， 包 括 基 于 风险 的 信任 管理 和 声誉 网 络 。 














我 们 的 目标 是 提供 一 个 高 级 视图 ， 能 够 说 明 在 信任 方面 与 Web 服务 相关 的 挑战 
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什么 ， 进 展 如 何 。 信 任 管理 是 一 个 新 兴 的 研究 领域 ， 包 括 普 渡 的 Bertino 、 麻 省 理工 学 院 
的 Berners Lee, UMBC 的 Finin (马里 兰 大 学 ,巴尔的摩 县 ) 和 Winslett Æ UIUC (伊利 
MKS, JERI) 等 ， 对 此 进行 了 广泛 的 研究 。 例 如 ，UMBC 的 Finin 和 同 
事 们 开创 了 使 用 称 为 REL 的 语言 ， 来 指定 和 推理 信任 的 技术 。 我 们 正在 与 UMBC 合作 ， 
在 需要 共享 的 环境 中 进行 信任 管理 。 虽 然 已 经 提出 了 许多 信任 协商 方法 ， 但 我 们 仍 需要 
研究 评估 这 些 方法 ， 并 确定 在 什么 情况 下 哪些 方法 是 适当 的 。 因 此 ， 尽 管 在 过 去 十 年 中 
我 们 对 信任 管理 做 了 很 多 工作 ,但 对 于 包括 云 服务 在 内 的 特定 应 用 和 领域 ,仍然 有 许多 









































工作 要 做 。 
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£305 隐私 和 云 服 务 


30.1 概述 














保密 性 是 云 仅 向 基于 策略 被 授权 的 人 员 发 布 数据 /信息 ， 而 隐私 是 关于 一 个 人 确定 
他 应 该 发 布什 么 信息 。 因 此 ， 如 果 CSP 的 隐私 策略 不 能 被 该 用 户 接 受 ， 则 他 /她 可 以 决 
定 他 /她 是 否 想 将 信息 存储 在 云 中 。 

但 是 ， 需 要 注意 的 是 ， 即 使 隐私 权 在 国会 级 别 上 已 经 被 大 量 讨论 ， 但 并 不 是 每 个 人 
都 同意 这 一 定义 。 例如 ， 作 者 在 华盛顿 特区 武装 部 队 通 信和 和 电子 协会 的 非 分 类 级 别 上 ， 
讲授 数据 挖掘、 国家 安全 和 隐私 。 参 加 课程 的 学 生 主 要 是 为 国防 和 情报 机 构 工 作 。 对 于 
他 们 来 说 ， 隐 私 并 不 是 说 出 他 或 她 病历 的 那 种 感觉 。 据 我 所 理解 ， 联 邦 调查 局 ( Federal 
Bureau of Investigation, FBI) 的 隐私 理念 是 确保 美国 公民 的 个 人 信息 不 会 陷入 不 法 之 人 
手中 。 即 使 是 其 他 机 构 ， 只 有 当 该 机 构 有 权 获 取 该 信息 时 ， 联 邦 调查 局 才 会 发 布 私 有 信 
息 。 在 某 种 程度 上 ， 隐 私 或 多 或 少 就 像 这 些 相 关 组 织 的 机 密 性 。 

人 们 已 经 开展 了 许多 关于 隐私 的 工作 ， 包 括 隐 私 策略 的 规范 和 执行 、 开 发 隐私 保护 
技术 、 数 据 挖 掘 和 隐私 标准 。W3C 的 一 个 挑战 是 规范 网 站 (或 CSP) 可 以 用 来 指定 其 
称 为 P3P 的 隐私 策略 的 标准 。 另 一 个 挑战 是 确保 私有 信息 不 会 由 于 语义 Web 挖掘 ( 云 
中 的 数据 挖掘 ) 而 被 公开 。 最 后 ， 云 服务 必须 确保 私人 信息 不 泄露 。 同 样 ， 进 行 云 挖 
据 的 云 服务 必须 确保 个 人 的 隐私 得 到 保护 。 

本 章 的 结构 如 下 。 在 30.2 5, 我们 讨论 一 般 隐私 管理 。 特 别 是 ，30. 2. 1 节 讨 论 隐 
私 问题 。30. 2. 2 节 讨 论 隐私 约束 处 理 和 数据 挖掘 的 隐私 问题 。P3P 将 在 30.2.3 节 中 讨 
ib. 30.3 节 讨论 仓 隐私 和 云 服务 之 间 的 关系 。 特 别 地 ， 隐 私 作为 云 服 务 将 在 30. 3. 1 节 中 
讨论 。30. 3. 2 节 讨 论 云 服务 的 隐私 。 本 章 结 束 于 30.4 节 。 































































































30.2 ”隐私 管理 


30.2.1 隐私 问题 


社会 科学 家 多 年 来 一 直 在 研究 隐私 ， 策 略 专家 也 为 机 构 和 公司 制定 了 隐私 策略 。 if 
是 ， 最 近 安 全 专家 才 开 始 关注 隐私 。 此 外 ， 针 对 DARPA 的 恐怖 主义 信息 意识 计划 ， 
及 对 数据 挖掘 的 关注 ， oe 
进展 。 今 天 ， 隐 私 是 信息 安全 的 重要 领域 。 然 而 ， 由 于 每 个 组 织 和 机 构 都 有 不 同 的 看 
法 ， 所 以 很 难 对 隐私 进行 精确 定义 。 




















379 





外 云 计 算 开 发 与 安全 














那么 问题 是 : 什么 是 隐私 ? 一 般 的 观点 是 ， 一 个 人 决定 他 或 她 应 该 发 布什 么 样 的 个 
人 信息 。 在 我 们 拥有 数据 分 析 、 数 据 挖掘 和 WWW 的 工具 之 前 ， 这 样 的 定义 是 正确 的 。 
通过 这 些 工具 ， 现 在 可 能 有 人 推断 关于 男 一 个 人 的 私人 信息 。 因 此 ， 我 们 需要 重新 定义 
隐私 的 概念 。 另 一 方面 ， 一 些 组 织 想 要 控制 关于 社区 的 个 人 信息 ， 并 决定 谁 应 该 发 布 个 
人 信息 。 也 就 是 说 ， 作 者 的 理解 是 联邦 调查 局 有 关于 个 人 的 信息 ， 他 们 将 有 权 决 定 是 否 
将 信息 发 布 给 中 情 局 。 最 初 ， 作 者 认为 这 基本 上 是 保密 性 而 不 是 隐私 。 然 而 ， 在 更 多 地 
关注 隐私 问题 和 阅读 这 个 主题 之 后 ， 作 者 现在 认为 ， 隐 私 的 定义 并 不 是 被 普遍 定义 的 那 
样 。 隐 私 必 须 由 组 织 定义 。 也 就 是 说 ， 一 个 组 织 可 以 将 隐私 策略 定义 为 保护 其 敏感 信息 
的 策略 。 另 一 个 组 织 可 以 将 隐私 策略 定义 为 ， 在 组 织 内 工作 的 人 员 指 定 哪 些 信息 可 以 由 
他 们 发 布 。 因 此 ， 是 否 隐私 策略 是 保密 策略 的 一 部 分 ， 或 者 是 单独 的 隐私 策略 ， 要 留 给 
组 织 来 确定 。 

我 们 的 兴趣 还 在 于 隐私 、 机 密 性 和 信任 之 间 的 关系 。 正 如 我 们 前 面 的 章节 所 讨论 
的 ， 在 我 们 的 工作 中 ， 我 们 做 出 了 以 下 假设 。 在 CSP 和 基于 凭证 或 声誉 的 用 户 之 间 建 
立信 任 。 当 用 户 登 录 云 进行 交易 时 ，CSP 将 指定 其 隐私 策略 。 然 后 用 户 将 确定 他 是 否 要 
输入 个 人 信息 。 也 就 是 说 ， 如 果 CSP 将 向 第 三 方 发 出 用 户 的 地 址 ， 则 用 户 可 以 决定 是 
否 输入 该 信息 。 然 而 ， 在 用 户 输入 信息 之 前 ， 用 户 必 须 决 定 他 是 否 信 任 CSP。 这 可 能 要 
基于 凭证 和 声誉 。 如 果 用 户 信 任 CSP 而 且 他 对 该 策略 感到 满意 ， 则 用 户 就 可 以 输入 他 
的 私人 信息 。 如 果 不 信 任 CSP， 那 么 他 可 以 选择 不 输入 信息 。 

我 们 给 出 了 类 似 的 对 机 密 性 的 推理 。 这 里 ， 用 户 正 在 从 CSP 请 求 信 息 ，CSP 检查 其 
机 密 性 策略 ， 并 决定 向 用 户 发 布 哪些 信息 。CSP 还 可 以 检查 其 对 用 户 的 信任 ， 并 决定 是 
否 向 用 户 提供 信息 。 还 可 以 基于 对 用 户 或 CSP 的 信任 来 确定 数据 的 质量 。 

有 关 隐 私 和 语义 云 服 务 的 更 多 具体 细节 方面 将 在 接 下 来 的 几 节 中 讨论 。 具 体 来 说 ， 
包括 应 用 语义 Web 技术 进行 隐私 管理 、 语 义 云 服务 的 隐私 问题 、P3P、 通 过 推理 发 生 的 
隐私 问题 以 及 隐私 保护 云 挖掘 等 。 图 30. 1 说 明了 隐私 管理 的 各 个 方面 。 

































































































































































































































































组 织 决定 
用 户 的 隐私 





用 户 决 定 
他 的 隐私 


30.2.2 推理 产生 的 隐私 问题 


我 们 对 安全 数据 库 的 推理 问题 进行 了 广泛 的 研究 。 大 部 分 工作 侧重 于 安全 约束 
处 理 ， 现 在 它 已 经 被 称 为 策略 管理 。 这 些 策 略 包括 内 容 和 上 下 文 相 关 约 束 ， 以 及 基 
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图 30. 1 EE EE 
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于 动态 和 事件 的 约束 。 例 如 ， 在 战争 开始 之 后 ， 该 船 的 使 命 就 成 为 机 密 ( 见 本 章 参 
考 文献 [THUR90])。 因 此 ， 我 们 采用 这 种 隐私 约束 处 理 方法 ， 其 中 的 安全 级 别 现在 
































将 成 为 隐私 级 别 (公共 、 私 人 、 半 公共 等 )， 安 全 约束 将 成 为 隐私 约束 ， 如 名 称 和 保 




















在 ， 这 也 符合 FBI 关 于 隐私 的 概念 ， 它 必须 保护 美国 公民 
医疗 隐私 ， 在 这 种 情况 下 ， 隐 私 由 个 人 指定 。 也 就 是 说 ， 


健 记 录 在 一 起 。 应 该 指出 的 是 ， 通 过 这 种 方法 ， 我 们 假设 隐私 和 保密 是 一 样 的 。 现 





的 私人 信息 。 但 这 并 不 符合 
个 人 决定 了 他 必须 保密 的 


言 息 。 隐 私 控制 器 由 个 人 管理 。 客 户 将 决定 如 果 他 /她 发 出 他 /她 的 遗传 信息 ， 那 么 
一 家 保险 公司 就 可 以 找 出 他 /她 可 能 容易 出 现 的 疾病 。 因 此 ， 隐 私 控制 器 将 引导 客户 





了 解 有 关 他 /她 的 哪些 信息 。 














在 这 里 ， 使 用 如 XML, RDF 之 类 的 语义 Web 技术 所 表示 的 数据 ， 用 推理 引擎 来 增 





强 本 体 。 这 些 引擎 可 以 执行 规则 处 理 或 利用 基于 本 体 的 推理 




















EE， 从 现 有 数据 中 推导 出 新 的 





数据 。 如 果 新 数据 是 私有 的 ， 那 么 他 们 可 以 向 客户 提供 关于 什么 信息 应 该 保密 的 建议 。 
需要 注意 的 是 ， 在 联邦 调查 局 ， 隐 私 控制 器 本 质 上 是 机 密 性 控制 器 (我 们 称 之 为 推理 
控制 器 ) ， 因 此 它 作用 于 服务 器 端 ， 并 确定 向 客户 端 (如 CIA) 发 布 哪些 信息 。 

值得 注意 的 是 ， 我 们 已 经 证 明 推理 问题 是 无 法 解决 的 ( 见 本 章 参 考 文献 























[THUR90] ) ， 也 已 经 应 用 了 类 似 的 技术 来 证 明 隐 私 问 题 是 
HR [THUR06b] ) 。 图 30. 2 为 隐私 控制 器 的 架构 。 














无 法 解决 的 〈 见 本 章 参 考 文 








隐私 增强 的 语义 网 络 的 接口 








推理 引擎 /隐私 控制 器 

















语义 web 引擎 文档 


图 30.2 隐私 控制 器 架构 





30.2.3 隐私 偏好 平台 


XML，RDF 






， 网 页 ， 数 据 库 


P3P 是 一 种 新 兴 的 行业 标准 ， 使 CSP 能 够 以 标准 格式 表达 其 隐私 惯例 。 策 略 的 格式 
可 以 由 用 户 代 理 自 动 检 索 和 理解 。 它 是 W3C (www. w3c. org) 的 产品 。 正 如 我 们 所 说 ， 
在 许多 领域 考虑 的 隐私 和 安全 性 的 主要 区 别 如 下 : CDI] HI P388 dit CSP 执行 的 隐私 策略 ; 
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) 云 计 算 开 发 与 安全 





@ 用 户 一 般 不 知道 安全 (或 保密 ) 策略 ; 外 当 用 户 进入 云端 时 ，CSP 的 隐私 策略 将 被 
传送 给 用 户 ; 由 如 果 隐 私 策略 与 用 户 偏 好 不 同 ， 则 就 会 通知 用 户 。 然 后 ， 用 户 可 以 决定 
如 何 继续 。 

几 家 大 型 企业 正在 开展 P3P 标准 ， 包括 Microsoft、IBM、HP、NEC、 诺 基 亚 和 
NCR。 几 个 网 站 也 实施 了 P3P。 语义 Web 工作 组 已 经 采用 P3P。P3P 的 初始 版 本 使 用 
RDF 指定 策略 ， 最 近 的 版 本 已 经 迁移 到 XML。P3P 策略 使 用 XML 和 命名 空间 进行 编码 
策略 。 

示例 : 目录 购物 。 您 的 姓名 不 会 发 给 第 三 方 ， 但 您 的 购买 内 容 将 会 发 给 第 三 方 。 

«POLICIES xmlns= du Hwww.w3.org/2002/01/P3Pv1> 

<POLICY name=- - 


</POLICY> 
</POLICIES> 


P3P 有 自己 的 声明 和 XML 表达 的 数据 类 型 。P3P 模式 使 用 XML 格式 。XML 是 理解 
P3P 的 前 提 条 件 。 对 2005 年 1 月 发 布 的 P3P 规范 ， 这 里 使 用 目录 购物 的 例子 来 解释 其 
概念 。P3P 是 一 个 国际 标准 ， 也 是 一 个 正在 进展 的 项 目 。 

需要 注意 的 是 ，P3P 代表 不 了 法 律 ， 但 P3P 与 法 律 一 起 工作 。 如 果 网 站 不 遵守 他 们 
的 P3P 策略 ， 就 必须 采取 适当 的 法 律 行动 。 今 天 ，XML 是 指定 P3P 策略 的 技术 。 策 略 
专家 将 必须 明确 策略 ， 技 术 必 须 制定 规范 。 如 果 违 反 策 略 ， 法 律 专 家 将 不 得 不 采取 
行动 。 

30.2.4 保护 隐私 的 云 挖掘 


在 上 一 章 〈 见 本 章 参考 文献 [THUROS]) 中 ,我 们 讨论 了 基于 隐私 保护 的 数据 挖 
据 。 这 个 想法 如 下 。 目 前 ， ET ee 
权 的 推论 ， 这 些 推论 可 能 是 非常 敏感 或 私有 的 。 进 而 ， 我 们 的 目标 就 是 隐藏 私人 数据 ， 
例如 某 个 人 的 疾病 ， 同 时 给 出 一 般 的 趋势 和 关联 。 也 就 是 说 ， 我 们 可 以 放出 “生活 在 
加 利 福 尼 亚 的 人 更 容易 患 哮喘 ”的 信息 ， 而 不 会 发 出 约 萌 有 哮喘 的 事实 。 基 于 隐私 保 
护 的 数据 挖掘 技术 ， 往 往 与 干扰 数据 或 随机 数据 一 起 工作 ， 而 不 会 泄露 实际 数据 。 

最 近 有 关于 语义 云 挖掘 的 报道 。 在 此 提 及 两 个 方面 。 一 方面 是 挖掘 使 用 XML、RDF 
和 OWL 等 语义 Web 技术 来 表示 云 上 的 数据 。 需 要 注意 到 ， 大 部 分 工作 都 侧重 于 挖掘 关 
系数 据 。 最 近 ， 出 现 了 有 关于 挖掘 非 结 构 化 数据 ( 如 文本 、 音 频 、 图 像 和 视频 ) 的 工 
作 。 挑 战 是 挖掘 存储 ， 以 及 管理 XML 和 RDF 文档 的 数据 库 。 另 一 方面 是 挖掘 XML 和 
RDF 文档 ， 而 不 会 透露 实际 数据 ， 而 是 提供 相关 性 和 趋势 。 前 者 是 数据 挖掘 的 一 个 方 
面 ， 而 后 者 则 是 基于 隐私 保护 的 数据 挖掘 的 一 个 方面 。 还 有 第 三 个 方面 ， 就 是 用 本 体 来 
帮助 挖掘 过 程 。 例 如， 数据 挖掘 工具 可 能 需要 关于 云 页 面 的 含义 的 说 明 。 在 这 里 
OWL 中 表达 的 本 体 可 用 于 阐明 促进 挖掘 过 程 的 概念 ( 见 图 30. 3)。 
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第 30 章 ”隐私 和 云 服 务 《5 


— 干扰 数据 / 
TON 随机 化 数据 





图 30.3 保护 隐私 的 云 数 据 挖 掘 


30.3 隐私 管理 和 云 


30.3.1 云 服 务 的 隐私 管理 


隐私 管理 可 以 作为 云 服 务 的 集合 来 实现 。 例 如 ， 当 用 户 从 云端 请 求 资源 时 ， 会 调用 
用 于 隐私 管理 的 云 服 务 。 该 服务 将 向 用 户 呈 现 CSP 的 隐私 策略 ， 用 户 随 后 可 以 确定 是 
否 请 求 资源 。 图 30.4 说 明了 用 于 隐私 管理 的 云 服务 ， 而 图 30. 5 为 用 于 隐私 管理 的 语义 
云 服 务 。 









































指定 隐私 >| 应 用 Web 服 >| 实施 隐私 管 
要 求 


务 和 云 技术 理 作为 云 服务 





图 30.4 保护 隐私 的 云 服务 





语义 Web 技术 对 隐私 管理 的 主要 贡献 是 
在 语义 Web 技术 中 指定 策略 。 这 些 策略 可 以 
用 XML、RDF、OWL 或 相关 的 语义 Web 语 HN HL 
言 实 现 。 另 一 个 贡献 是 PBP。CSP 可 以 利用 策略 作为 
这 些 语 义 Web 技术 来 表达 和 推理 隐私 策略 。 samo 
如 信任 管理 一 样 ， 需 要 确定 适当 的 语言 pio 
来 指定 隐私 策略 。 为 此 ，XML 正在 成 为 流行 
的 语言 。 即 使 最 初 专注 于 将 RDF 用 于 隐私 策 图 30.5 ”保护 隐私 的 语义 云 服务 
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外 云 计 算 开 发 与 安全 





























略 规范 的 P3P 标准 ， 也 转换 为 XML。 但 是 ， 如 果 需 要 隐藏 隐私 策略 的 语义 和 隐私 的 理 
H, Jl RDF 或 OWL 将 更 为 合适 。 

在 规定 隐私 策略 时 ， 还 需要 确定 是 否 泄露 敏感 信息 或 私人 信息 。 所 以 ， 可 能 对 原始 
隐私 策略 本 身 ， 实 施 适当 的 机 密 性 或 隐私 策略 。 因 此 ， 我 们 可 能 希望 对 隐私 策略 描述 中 
的 各 个 部 分 进行 访问 控制 。 


30.3.2 云 服务 和 语义 云 服 务 中 的 隐私 


云 服务 中 的 隐私 就 是 关于 保障 云 服 务 的 隐私 性 。 例 如 ， 云 服务 可 能 正在 处 理 高 度 敏 
感 的 信息 或 进行 监视 。 另 外 ， 私 人 和 敏感 信息 ， 例 如 社会 保障 号 码 和 /或 个 人 的 位 置 ， 
可 能 必须 通过 适当 的 策略 执行 来 保护 。 图 30. 6 所 示 为 云 服务 中 的 隐私 。 
























开发 隐私 增 


云 服务 技术 强 的 云 服务 


应 用 隐私 策略 









图 30.6 云 服务 中 的 隐私 


语义 云 服务 中 的 隐私 主要 在 于 确保 私有 信息 不 被 这 些 语 义 云 服务 泄露 。 需 注意 ， 语 
义 云 服务 是 利用 基于 云 的 WS 和 语义 Web 技术 ， 来 表示 和 推理 去 数据 和 策略 的 服务 。 我 
们 的 目标 不 是 揭露 私人 信息 。 为 此 ， 我 们 需要 确保 在 XML 和 RDF 文档 以 及 OWL 本 体 
上 正确 执行 隐私 策略 。 更 进一步 ， 基 于 描述 逻辑 开发 的 推理 引擎 的 目的 ， 就 是 使 得 私人 
信息 不 能 通过 演绎 来 推断 。 

云 服务 的 隐私 很 少 受到 关注 。Bertino 及 其 同事 对 XML 的 隐私 进行 了 研究 ， 并 且 还 
研究 了 基于 Trust - X 系统 的 信任 管理 产生 的 侵犯 隐私 行为 ( 见 本 章 参 考 文献 
[ SQUI07] ) 。Finin 等 人 正在 为 他 们 的 语义 Web 研究 隐私 ， 尽 管 他 们 的 研究 主要 集中 在 
信任 管理 上 。 在 我 们 对 语义 云 服务 的 CPT (机 密 性 、 隐 私 和 信任 ) 的 研究 中 ， 基 于 我 
们 所 说 的 基本 系统 和 高 级 系统 进行 隐私 保护 ( 见 本 童 参考 文献 [THUR06a] ) 。 需 注意 
的 是 ， 高 级 系统 由 隐私 引擎 组 成 ， 通 过 推理 将 重点 关注 隐私 侵权 。 利 用 语义 云 服务 ， 这 
个 想法 是 让 机 器 检查 云 中 的 语义 数据 ， 并 确定 是 否 显 示 任 何 私 人 信息 。 此 外 ， 在 普通 云 
中 ，CSP 将 向 用 户 显 示 其 隐私 策略 ， 用 户 决 定 是 否 将 他 /她 的 私人 信息 存储 在 云 中 。 使 
用 语义 云 服 务 ，CSP 可 以 检查 隐私 策略 和 用 户 偏好 ， 并 也 可 以 向 用 户 提 供 他 /她 应 该 存 
储 私人 信息 的 建议 。 图 30. 7 所 示 为 语义 云 的 隐私 管理 。 





















































































































































语义 云 服 务 应 用 隐私 策略 eb 











图 30.7 语义 云 服 务 中 的 隐私 
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第 30 章 隐私 和 云 服 务 (7) 


30.4 总结 和 展望 


私 管理 和 云 月 


在 本 章 中 ， 我 们 讨论 了 各 种 隐私 概念 ， 并 提供 了 隐私 管理 的 概述 。 然 后 ， 讨 论 了 隐 























们 还 讨论 了 用 于 指定 隐私 策略 的 语义 云 中 的 隐私 。 


本 章 的 大 部 分 讨论 都 处 于 研究 的 早期 阶段 。 我 们 没有 尝试 讨论 隐私 的 正确 定义 。 了 
们 的 目标 是 说 明 隐 私 管理 与 语义 云 之 间 的 联系 。 正 如 我 1 














民 务 。 例 如 ， 云 服务 必须 维持 隐私 。 隐 私 控制 器 可 以 作为 云 服务 被 实现 。3 





n 


" 


门 所 提 到 的 ， 语 义 Web 技术 在 


隐私 策略 的 规范 和 推理 中 是 有 用 的 。 此 外 ,我们 已 经 讨论 了 由 XML 和 RDF 表示 的 数据 
可 以 被 控 据 ， 因 此 这 可 能 侵犯 个 人 的 隐私 。 
我 们 在 工作 中 强调 ， 只 有 技术 是 不 足以 保护 个 人 隐私 的 。 我 们 需要 社会 科学 家 、 技 








术 专 家 和 决策 者 共同 合作 。 引 进 法 律 专家 也 很 重要 。 有 人 说 ， 不 可 能 防止 侵犯 隐私 ， 法 





得 


措施 是 唯 




















须 小 心 ， 不 要 造成 虚假 的 隐私 或 安全 隐患 。 
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一 可 行 的 解决 方案 。 不 过 ， 我 们 认为 “有 一 些 隐私 比 没有 好 ”， 但 是 我 们 必 


第 31 章 完整 性 管理 、 数 据 来 源 和 云 服 务 


31.1 概述 





在 本 章 中 ， 我 们 将 讨论 云 服务 的 完整 性 管理 。 完 整 性 包括 几 个 方面 。 在 数据 库 世界 
中 ， 完 整 性 包括 并 发 控制 和 恢复 ， 以 及 执行 完整 性 约束 。 例 如 ， 当 同时 执行 多 个 事务 
时 ， 必 须 确保 数据 的 一 致 性 。 当 事务 中 止 时 ， 必 须 确保 数据 库 从 故障 恢复 到 一 致 的 状 
态 。 完 整 性 约束 是 数据 必须 满足 的 规则 。 这 些 规定 包括 “薪资 必须 是 正 的 ”及 “员工 
的 年 龄 不 能 随时 间 而 减少 ”等 。 最 近 ， 完 整 性 又 包括 了 数据 质量 、 数 据 来 源 、 数 据 普 
及 性 、 实 时 处理 和 容错 性 。 

在 本 章 中 ， 我 们 将 讨论 云 服务 的 完整 性 方面 ， 以 及 将 完整 性 管理 作为 云 服务 来 实 
现 。 例 如 ， 我 们 如 何 确保 数据 和 流程 的 完整 性 ”我 们 如 何 确保 数据 质量 得 到 保持 ”本 章 
的 结构 如 下 。 在 31. 2 节 中 ， 我 们 将 讨论 完整 性 、 数 据 质 量 和 数据 来 源 方 面 的 内 容 。 其 
中 完整 性 方面 将 在 31.2. 1 节 进 行 讨 论 。 数 据 质 量 和 数据 来 源 将 在 31. 2. 2 节 讨 论 。31.3 
节 讨 论 云 服务 和 完整 性 管理 。 数 据 完整 性 和 云 服 务 的 来 源 将 在 31.3.1 节 中 进行 专门 讨 
论 。31. 3. 2 节 将 讨论 云 服务 的 数据 完整 性 。 在 31.4 节 对 本 章 进 行 总 结 。 完 整 性 的 各 个 
方面 如 图 31. 1 所 示 。 
















































代理 商 的 完整 性 





se ty 2 数据 质量 和 
网 站 的 完整 性 数 据 来 源 


图 31.1 完整 性 的 各 个 方面 
31.2 完整 性 、 数 据 质 量 和 数据 来 源 


31.2.1 完整 性 方面 

完整 性 有 很 多 方面 。 例 如 ， 并 发 控制 、 恢 复 、 数 据 准确 性 、 满 足 实时 约束 、 数 据 准 
确 性 、 数 据 质 量 、 数 据 来 源 、 容 错 和 完整 性 约束 执行 ,这些 都 是 完整 性 管理 的 一 个 方 
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面 。 如 图 31. 1 所 示 。 在 本 节 中 ， 我 们 将 研究 完整 性 的 各 个 方面 。 

并 发 控制 :在 数据 管理 中 ， 并 发 控制 是 关于 同时 执行 的 事务 ， 并 确保 数据 的 一 致 
性 。 因 此 ， 当 多 个 事务 尝试 同时 访问 数据 时 ， 事 务必 须 获 取 锁 或 利用 时 间 惟 来 确保 数据 
保持 一 致 状态 。 在 集中 式 和 分 布 式 环境 下 ， 对 事务 管理 的 并 发 控制 技术 进行 了 广泛 的 研 
究 ( 见 本 章 参考 文献 [BERN87] ) 。 

数据 恢复 : 当 事 务 在 完成 执行 之 前 中 止 ， 数 据 库 应 该 恢复 到 一 致 的 状态 ， 例 如 事务 
开始 执行 之 前 的 状态 。 目 前 ， 已 经 提出 了 几 种 恢复 技术 来 确保 数据 的 一 致 性 。 
数据 真实 性 : 当 数 据 传送 给 用 户 时 ， 必 须 保 证 其 真实 性 。 也 就 是 说 ， 用 户 应 该 获得 
准确 的 数据 ， 数 据 不 应 该 是 被 算 改 的 。 我 们 在 第 三 方 发 布 时 进行 了 确保 XML 数据 真实 
性 的 研究 〈 见 本 章 参考 文献 [BERT04] ) 。 

数据 完整 性 : 用 户 收 到 的 数据 不 仅 应 该 是 真实 的 ， 而 且 还 应 该 是 完整 的 。 也 就 是 
说 ， 用 户 被 授权 看 到 的 所 有 内 容 都 必须 传递 给 用 户 。 

数据 现势 性 : 数据 必须 是 当前 的 。 也 就 是 说 ， 过 期 的 数据 必须 被 删除 或 存档 ， 并 且 
用 户 看 到 的 数据 必须 是 当前 数据 。 数 据 现势 性 是 实时 处 理 的 一 个 方面 。 如 果 用 户 想 要 检 
索 温度 ， 则 必须 给 出 当前 温度 ， 而 不 是 24 小 时 前 的 温度 。 
数据 准确 性 : 也 就 是 数据 的 准确 度 如 何 ? 这 也 与 数据 质量 和 数据 现势 性 密切 相关 。 
ti 是 说 ， 准 确 性 取决 于 数据 是 否 被 恶意 破坏 ， 或 者 是 否 来 自 不 受信 任 的 来 源 。 
数据 质量 数据 质量 高 四 ?这 包括 数据 真实 性 、 数 据 准 确 性 ， 以 及 数据 是 否 是 完整 
的 或 确定 的 。 如 果 数 据 不 确定 ， 那 么 我 们 可 以 在 不 确定 性 的 前 提 下 ， 确 保 使 用 数据 的 操 
作 不 受 影响 吗 ? 数据 质量 也 取决 于 数据 源 。 

数据 来 源 : 这 与 数据 的 历史 有 关 ， 也 就 是 说 ， 从 数据 产生 (比如 从 传感器 发 出 数 
据 ) 的 时 间 开 始 ， 直 到 这 些 数据 被 交 给 决策 者 的 当前 时 间 。 问 题 是 谁 访 问 过 数据 ? 谁 
修改 了 数据 ?数据 又 如 何 运行 ? 这 将 确定 数据 是 否 被 滥用 。 

完整 性 约束 : 这 些 是 数据 必须 满足 的 规则 ， 如 一 个 人 的 年 龄 不 能 是 负数 。 这 种 完整 
性 已 被 数据 库 和 人 工 智 能 社区 广泛 研究 。 

容错 : 如 在 数据 恢复 的 情况 下 ， 失 败 的 进程 必须 被 恢复 。 因 此 ， 容 错 就 是 处 理 数据 
恢复 以 及 进程 恢复 。 容 错 技术 包括 检查 点 和 验收 测试 。 

实时 处 理 : 数据 现势 性 是 实时 处 理 中 一 个 方面 ， 也 就 是 实时 处 理 中 的 数据 必须 是 最 
新 的 。 实 时 处 理 也 必须 满足 处 理事 务 所 需 的 时 间 限 制 。 例 如 ， 在 Smin 内 必须 提供 股票 
报价 。 如 果 没 有 ， 那 将 来 不 及 了 。 缺 少时 间 限 制 可 能 导致 完整 性 违规 。 


31.2.2 推论 、 数 据 质量 和 数据 来 源 


一 些 研 究 人 员 认 为 数据 质量 是 数据 来 源 的 应 用 。 此 外 ， 他 们 制定 了 推断 数据 质量 的 

理论 。 在 本 节 中 ， 我 们 将 考察 数据 质量 、 数 据 来 源 和 语义 云 服务 之 间 的 关系 。 
数据 质量 是 关于 数据 的 准确 性 、 及 时 性 和 可 靠 性 ( 即 可 信任 性 )。 但 是 ， 它 是 主观 
的 ， 取 决 于 用 户 和 域 。 必 须 回答 的 一 些 问题 中 包括 创建 数据 ， 即 它们 从 哪里 来 ? 为 什么 
要 获取 数据 以 及 如 何 获得 数据 ”数据 质量 信息 作为 注释 存储 在 数据 中 ， 应 该 是 数据 来 源 
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的 一 部 分 。 人 们 可 以 问 我 们 如 何 获得 数据 的 可 信和 度 。 这 可 能 取决 于 数据 源 的 排名 和 声 
誉 。 需 要 注意 的 是 ， 我 们 在 第 29 章 中 讨论 了 声誉 。 

正如 我 们 所 说 ， 研 究 人 员 已 经 开发 了 推断 数据 质量 的 理论 ( 见 本 章 参 考 文献 
[PON] ) 。 动 机 是 因为 数据 可 能 来 自 多 个 数据 源 ， 它 们 是 共享 的 、 容 易 出 错 的 。 此 外 ， 
数据 可 能 不 确定 。 因 此 ， 统 计 推 理 、 贝 叶 斯 理论 和 Dempster - Schafer 证 据 理论 等 不 确定 
性 理论 ， 被 用 来 推断 数据 的 质量 。 关 于 安全 性 ， 我 们 需要 确保 所 推断 数据 的 质量 不 违反 
策略 。 例 如 ， 在 未 分 类 的 级 别 ， 我 们 可 以 说 数据 源 是 可 信赖 的 ， 但 在 机 密级 别 ， 我 们 知 
道 数据 源 是 不 可 靠 的 。 我 们 开发 的 推理 控制 句 ， 可 以 与 为 数据 质量 开发 的 推理 理论 相 结 
合 ， 以 确保 安全 性 。 

接 下 来 ， 我 们 来 看 看 数据 来 源 。 对 于 包括 医疗 和 保健 在 内 的 许多 领域 ， 以 及 数据 准 
确 性 至 关 重 要 的 防御 ， 我 们 需要 对 数据 来 自 何 处 以 及 谁 可 能 自 改 数据 有 很 好 的 了 解 。 如 
本 章 参考 文献 [SIMMOS] 所 述 ， 数 据 来 源 是 一 种 有 时 称 为 “家 系 ” 或 “谱系 ”的 元 数 
据 ， 也 是 描述 一 个 数据 的 来 源 以 及 其 到 达 数 据 库 的 过 程 。 数 据 来 源 是 一 种 信息 ， 能 有 助 
于 确定 数据 产品 从 原始 来 源 开始 派生 的 历史 。 

来 源 信 息 可 以 应 用 于 数据 质量 、 审 计 和 所 有 权 等 。 通 过 记录 谁 访问 数据 ， 可 以 确定 
数据 是 否 被 滥用 。 通 常 ， 注 释 用 于 描述 与 数据 相关 的 信息 (例如 ， 谁 访问 数据 ? 数据 
来 自 哪 里 ?)。 挑 战 在 于 确定 是 需要 维护 粗 粒 度 来 源 数 据 ， 还 是 细 粒 度 来 源 数据 。 例 如 ， 
在 粗 粒 度 情况 下 ， 可 以 注释 关系 的 表 。 而 在 细 粒 度 的 情况 下 ， 就 可 以 注释 每 个 元 素 。 当 
然 ， 要 考虑 管理 来 源 的 存储 开销 。XML、RDF 和 OWL 已 被 用 于 表示 来 源 数据 。 这 样 ， 
为 语义 Web 技术 开发 的 工具 可 用 于 管理 来 源 数 据 。 

使 用 数据 来 源 进行 滥用 检测 有 很 大 的 好 处 。 
例如 ， 通 过 维护 数据 的 完整 历史 记录 、 访 问 数据 ”| 数据 来 源 
的 人 员 、 访 问 数据 的 时 间 和 地 点 ， 可 以 回答 如 — 
“2010 4E 1 月 至 5 月 期 间 谁 访问 数据 ”的 查询 。 因 
此 ， 如 果 数 据 是 损坏 的 ， 可 以 确定 谁 损坏 了 数据 | 数据 来 日 哪里 ? 

或 数据 何 时 被 损坏 。 图 31.2 所 示 数 据 来 源 的 内 ”| 谁 访问 了 数据 ? 

容 。 我 们 对 使 用 语义 Web 技术 表示 策略 和 来 源 数 ”| 数据 的 完整 历史 是 什么 ? 
据 的 表示 和 推理 进行 了 广泛 的 研究 〈 见 本 音 参 考 数据 被 滥用 了 吗 ? 
文献 [CADElla], [CADEII1b]) 。 





































































































































































































^ = 图 31.2 数据 来 源 
31.3 ”完整 性 管理 和 云 服务 


31.3.1 用 于 完整 性 管理 的 云 服务 


这 里 有 两 个 方面 。 一 个 是 可 以 使 用 云 服务 实现 完整 性 管理 。 另 一 个 是 确保 云 服 务 具 
有 高 度 完整 性 。 为 了 实现 作为 云 服 务 的 完整 性 管理 ， 方 法 是 调用 云 服务 以 确保 数据 质 

， 以 及 数据 和 系统 的 完整 性 。 图 31. 3 所 示 为 将 完整 性 管理 作为 云 服务 实现 的 情况 。 
像 保 密 性 、 隐 私 和 信任 一 样 ， 如 XML 和 RDF 之 类 的 语义 Web 技术 也 可 以 用 于 指定 
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完整 性 策略 。 完 整 性 策略 可 以 包括 用 于 指定 完整 性 约束 的 策略 ， 以 及 用 于 指定 时 序 约 
束 、 数 据 现势 性 和 数据 质量 的 策略 。 以 下 是 策略 的 一 些 示 例 : 
完整 性 约束 : 员工 的 年 龄 必须 是 正 的 。 在 关系 表示 中 ， 可 以 将 此 策略 指定 为 
EMP.AGE > 0. 
In XML, this could be represented as the following: 
«Condition Object="//Employee/Age”> 
«Apply FunctionId=“greater-than”> 
<AttributeValue Datalype=“http://www.w3.org/2001/XMLSchema#integer”>0 
</AttributeValue> 
</Apply> 
</Condition> 
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图 31.3 ”用 于 完整 性 管理 的 云 服务 

















数据 质量 策略 : 员工 表 中 数据 的 质量 为 低 。 在 关系 模型 中 ， 这 可 以 表示 为 
EMP. Quality = LOW, 
在 XML 中 ， 此 策略 可 以 表示 为 
<Condition Object= WEmployee/Quality > 
«Apply FunctionId=“equal”> 
<AttributeValue DataType=“http://www.w3.org/2001/XMLSchema#string”> 
LOW 
</AttributeValue> 
</Apply> 
</Condition> 
数据 现势 性 : 一 个 例子 是 EMP 的 工资 值 不 能 超过 365 天 。 在 关系 表示 中 ， 这 可 以 
表示 为 
AGE (EMP. SAL) < = 365 X 
在 XML 中 ， 这 表示 为 
«Condition Object= WEmployee/Salary > 
«Apply Functionld=“AGE”> 
«Apply FunctionId=“less-than-or-equal”> 
«AttributeValue Datalype=“http://www.w3.org/2001/XMLSchema#integer” 
2365 
</AttributeValue> 
</Apply> 
</Apply> 
</Condition> 


以 上 示例 显示 了 如 何 指定 某 些 完整 性 策略 。 需 要 注意 的 是 , 语义 Web 技术 还 有 许 
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多 其 他 应 用 可 以 确保 完整 性 。 例 如 ， 为 了 确保 数据 来 源 ， 必 须 存储 数据 的 历史 记录 。 我 
们 正在 使 用 语义 Web 技术 (如 XML) 来 表示 用 于 确定 数据 质量 或 数据 是 否 被 滥用 的 数 
据 注 释 。 也 就 是 说 ， 捕 获 的 数据 用 元 数据 信息 进行 注释 ， 例如， 数据 是 什么 ? 何 时 被 捕 
获 ? 是 谁 捕获 的 ? 然后 ， 随 着 数据 从 一 个 地 方 移动 到 男 一 个 地 方 ， 或 从 一 个 人 到 男 一 个 
人 ， 这 些 注释 都 将 被 更 新 ， 使 得 在 稍 后 的 时 间 ， 可 以 分 析 数 据 是 否 被 滥用 。 这 些 注释 通 
常 在 语义 Web 技术 (如 XML、RDF 和 OWL) 中 表示 。 
用 于 完整 性 管理 的 语义 Web 技术 的 另 一 个 应 用 ， 是 使 用 本 体 来 解决 语义 异 构 。 也 
就 是 说 ,语义 异 构 可 能 导致 破坏 完整 性 。 当 同一 个 实体 在 不 同 的 站 点 被 认为 是 不 同 的 ， 
从 而 破坏 完整 性 和 准确 性 时 ， 就 会 发 生 这 种 情况 。 比 如 ， 通 过 使 用 OWL 中 指定 的 本 体 ， 
可 以 表示 在 一 个 站 点 中 的 船舶 和 另 一 个 站 点 中 的 潜艇 是 一 样 的 。 

语义 Web 技术 在 推论 和 推理 方面 也 有 
应 用 。 例 如 ， 可 以 使 用 基于 RDF、OWL 或 
比如 规则 的 推理 引擎 ， 来 确定 是 否 违反 了 完 
整 性 策略 。 在 这 部 分 中 ， 我 们 讨论 了 推理 和 
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隐私 问题 ， 以 及 建立 推理 引擎 。 还 必须 对 违 语义 云 服务 实现 
反 完 整 性 的 策略 进行 研究 。 在 语义 云 服 务 的 利用 语 

情况 下 ， 调 用 这 些 服务 来 强制 或 确定 数据 是 义 云 服务 

否 已 损坏 。 图 31.4 所 示 为 语义 云 服 务 在 完 

整 性 管理 中 的 应 用 。 图 31.4 完整 性 管理 中 的 语义 云 服务 




















31.3.2 云 和 语义 云 服务 的 完整 性 


虽然 我 们 讨论 了 使 用 云 服 务 和 语义 云 服 务 来 进行 完整 性 管理 ， 但 在 本 节 中 ， 我 们 研 
究 确 保 云 服务 具有 高 度 完整 性 的 问题 。 这 里 的 想法 是 确保 云 服 务 不 是 恶意 的 ， 不 会 破坏 
数据 或 其 他 服务 。 这 意味 着 云 服务 必须 经 过 验证 或 测试 ， 不 包含 恶意 代码 。 图 31.5 所 
示 为 云 服务 自身 的 完整 性 管理 。 
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图 31.5 云 服 务 自身 的 完整 性 

我 们 还 需要 确保 语义 Web 技术 的 完整 性 得 到 维护 。 用 于 数据 质量 和 来 源 的 注释 通 
常用 XML 或 RDF 文档 表示 。 这 些 文件 必须 准确 、 完 整 和 保持 最 新 。 因 此 ,语义 云 服务 
必须 确保 文档 保持 完整 性 。 完 整 性 的 另 一 个 方面 是 管理 由 XML 或 RDF 文档 组 成 的 数据 
库 。 这 些 数据 库 有 关于 关系 数据 库 的 所 有 问题 和 挑战 。 也 就 是 说 ， 必 须 优化 查询 ， 且 并 
发 执行 事务 。 因 此 ，XML 和 RDF 文档 的 并 发 控制 和 故障 恢复 ， 成 为 管理 XML 和 RDF 
数据 库 的 一 个 挑战 。 在 这 种 情况 下 ,语义 云 服务 要 执行 安全 的 数据 管理 功能 。 

作为 语义 云 服务 被 实施 的 代理 ， 可 执行 搜索 、 查 询 和 集成 异 构 数 据 库 等 操作 ， 也 必 
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须 确保 数据 的 完整 性 得 到 维护 。 这 些 代理 不 能 恶意 地 破坏 数据 ， 他 们 必须 确保 数据 准 
确 、 完 整 和 一 致 。 最 后 ， 当 集成 异 构 数 据 库 时 ， 人 们 正在 使 用 如 OWL 本 体 的 语义 Web 
技术 来 处 理 语义 异 质 性 。 这 些 本 体 也 必须 是 准确 和 完整 的 ， 且 不 能 被 算 改 。 

总 之 ,为 了 使 语义 Web 技术 变 得 有 用 ， 它 们 必须 保护 完整 性 。 此 外 ， 语 义 Web dx 
术 本 和 映 正 被 用 于 指定 和 推理 完整 性 策略 。 图 31. 6 所 示 为 语义 云 服务 的 完整 性 管理 。 
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图 31.6 语义 云 服务 的 完整 性 





31.4 总 结 和 展望 


在 本 章 中 ， 我 们 对 数据 完整 性 进行 了 概述 ， 包 括 数 据 质量 和 数据 来 源 ， 讨 论 了 语义 
Web 技术 在 数据 完整 性 方面 的 应 用 ， 并 讨论 了 语义 Web 技术 的 完整 性 。 最 后 ， 我 们 概 
述 了 数据 质量 与 数据 来 源 之 间 的 关系 。 

数据 来 源 和 数据 质量 虽然 重要 ， 但 最 近 才 受 到 重视 。 这 是 由 于 云 上 有 大 量 的 信息 ， 
知道 数据 的 准确 性 以 及 数据 是 否 被 复制 或 简 锚 都 很 重要 。 我 们 还 需要 回答 有 关 拥 有 数据 
的 问题 ， 数 据 被 滥用 ? 因此 ， 数 据 来 源 对 于 确定 数据 的 安全 性 至 关 重 要 。 

云 服务 应 具有 较 高 的 完整 性 。 上 此外， 完整 性 技术 可 以 作为 云 服 务实 现 。 语义 Web 技 
术 提供 了 一 种 表示 和 存储 数据 质量 和 数据 来 源 的 方法 。 随 着 我 们 在 这 些 技术 方面 取得 的 进 
展 ， 我 们 将 为 数据 质量 和 数据 来 源 管理 提供 改进 的 解决 方案 。 本 质 上 ， 数 据 质量 和 数据 来 
源 是 数据 安全 的 一 部 分 ， 语 义 Web 技术 对 于 管理 数据 质量 和 数据 来 源 信息 非常 有 用 。 
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第 八 部 分 总 结 




















虽然 以 前 的 部 分 主要 关注 访问 控制 模型 和 云 服务 的 机 密 性 ， 但 在 第 八 部 分 中 ,我 们 
讨论 了 云 服务 的 信任 、 隐 私 和 完整 性 问题 。 特 别 是， 我 们 讨论 了 隐私 控制 、 数 据 质量 以 
及 管理 信任 。 机 密 性 、 信 和 任性、 隐私 性 和 完整 性 等 特征 如 果 包 含 到 云 中 ,将 带 来 可 靠 
的 云 。 

在 第 29 章 中 ,我们 讨论 了 信任 管理 ， 及 其 与 去 服务 和 语义 云 服务 的 连接 。 我 们 首 
先 讨论 了 信任 管理 的 各 个 方面 ， 包 括 定义 信任 和 描述 信任 协商 。 然 后 ， 讨 论 了 在 语义 云 
服务 的 环境 中 实施 信任 的 内 容 。 我 们 还 讨论 了 使 用 语义 云 服 务 技术 来 指定 信任 策略 。 最 
后 ,论述 了 包括 风险 信任 管理 和 声誉 网 络 在 内 的 相关 概念 。 

在 第 30 章 中 ， 我 们 讨论 了 隐私 的 各 种 概念 ， 对 隐私 管理 进行 了 概述 。 然 后 ， 讨 论 
了 云 服 务 的 隐私 管理 。 例 如 ， 云 服务 必须 保持 隐私 性 。 此 外 ， 隐 私 控制 器 可 以 被 实现 为 
云 服 务 。 我 们 还 讨论 了 语义 云 的 隐私 和 语义 Web 技术 的 使 用 ， 以 指定 和 推理 隐私 策略 。 

在 第 31 章 中 ， 我 们 提供 了 数据 完整 性 的 概述 ， 包 括 数据 质量 和 数据 来 源 。 接 着 讨 
论 了 语义 云 服务 在 数据 完整 性 方面 的 应 用 ， 并 论述 了 语义 云 的 完整 性 。 此 外 ， 我 们 还 概 
述 了 数据 质量 与 数据 来 源 之 间 的 关系 。 
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第 九 部 分 “ 面 问 云 安全 建立 基础 设施 、 
教育 项 目 和 研究 计划 


第 九 部 分 简介 

现在 我 们 已 经 概述 了 在 云 计算 和 安全 的 云 计算 中 开发 的 系统 ， 我 们 将 描述 正在 开发 
的 基础 设施 、 教 育 项 目 和 研究 计划 ， 这 是 我 们 在 云 计 算 安 全 工作 的 基础 。 

第 九 部 分 由 3 章 组 成 : 第 32 章 、 第 33 章 和 第 34 章 。 第 32 章 将 讨论 我 们 在 UTD JF 
发 的 云 计算 安全 基础 架构 。 第 33 章 讨 论 我 们 在 云 计 算 安 全 中 的 教育 项 目 。 在 第 34 章 中 
讨论 过 去 五 年 里 我 们 主导 的 合作 研究 计划 。 我 们 在 前 几 章 中 讨论 的 很 多 原型 都 是 由 我 们 
的 研究 计划 产生 的 。 这 些 原型 不 仅 帮 助 我 们 建立 安全 的 基础 设施 和 提升 我 们 的 研究 ， 而 
且 还 帮助 我 们 在 安全 云 计算 中 建立 了 强大 的 教育 项 目 。 
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$328 云 安 全 的 基础 设施 


32.1 概述 


正如 我 们 之 前 讨论 的 一 样 ， 如 今 迫切 需要 安全 存储 、 管 理 、 共 享 和 分 析 大 量 复杂 的 

(例如 半 结 构 化 和 非 结构 化 ) 数据 来 确定 模式 和 趋势 ， 以 提高 医疗 保健 质量 ， 更 好 地 维 
护 国 家 安全 ， 并 探索 可 替代 能 源 。 但 是 ， 据 我 们 所 知 ， 没 有 现成 的 基础 设施 可 以 满足 上 
述 需求 。 因 此 ， 我 们 正在 UTD 开发 一 个 查询 大 量 复 杂 (例如 语义 Web 和 地 理 空间 ) 数 
据 ， 并 维护 这 些 数 据 的 机 密 性 和 隐私 性 的 基础 设施 。 
新 兴 的 云 计算 模式 试图 解决 网 络 连 接 设备 的 增长 ， 并 处 理 大 量 数据 的 问题 。Google 
引进 了 Map/Reduce 框架 来 处 理 硬件 商品 上 的 大 量 数据 。 而 Apache 的 HDFS 正在 成 为 云 
计算 的 高 级 软件 组 件 ， 当 然 也 结合 了 Map/ Reduce 等 集成 部 件 。 增 加 人 类 推理 、 解 释 和 
决策 能 力促 使 了 语义 Web 的 出 现 ， 这 是 一 种 将 网 络 从 目前 只 有 人 类 可 读 的 形式 ， 转 变 
为 机 器 可 处 理 形式 的 和 尝试。 这 反 过 来 又 导致 了 大 量 的 社交 网 络 站 点 的 出 现 ， 它 们 拥有 大 
量 的 数据 可 供 共享 和 管理 。 因 此 ， 我 们 迫切 需要 一 个 可 以 扩展 到 处 理 大 量 站 点 和 大 量 数 
据 的 基础 设施 。 然 而 ， 使 用 HDFS 和 Map/Reduce 中 最 先进 技术 的 基础 设施 是 不 够 的 ， 
因为 中 它们 没有 提供 足够 的 安全 机 制 来 保护 敏感 数据 ，@) 它 们 也 没有 能 力 处 理 大 量 语义 
Web 和 地 理 空间 的 数据 。 我 们 正在 利用 最 先进 的 硬件 、 软 件 和 数据 组 件 ， 构 建 一 个 处 
理 当 前 云 计算 基础 架构 不 足 之 处 的 基础 架构 。 特 别 的 ， 我 们 使 用 流行 硬件 部 件 〈 例 如 
安全 协 处 理 器 ) 来 提高 性 能 ， 因 为 它 包 含 额外 的 安全 功能 ; 集成 开源 软件 部 件 和 定制 
开发 的 软件 部 件 ， 以 文 持 对 复杂 数据 的 查询 操作 ; 文 持 细 粒 度 的 访问 控制 和 引用 监视 器 
支持 ， 使 其 为 复杂 数据 提供 安全 性 ; 为 云 计 算 提 供 强大 的 认证 机 制 。 该 基础 设施 有 助 于 
计算 机 和 信息 科学 ， 以 及 社会 科学 等 几 个 领域 的 科学 研究 ， 包 括 安 全 和 隐私 、 语 义 
Web、 地 理 空 间 信息 和 社交 网 络 分 析 。 

我 们 工作 的 技术 贡献 是 支持 细 粒 度 的 云 访 问 控 制 、 加 密 的 敏感 数据 的 存储 、 用 于 海 
量 数据 集 的 复杂 查询 处 理 和 认证 机 制 。 我 们 首先 开发 了 此 类 云 ， 能 够 面向 应 用 ， 比 如 使 
用 大 量 数据 时 的 信息 共享 保障 ， 它 由 最 先进 的 硬件 、 软 件 和 数据 组 件 组 成 。 我 们 的 研究 
项 目 用 于 语义 Web 数据 管理 、 信 息 共享 保障 和 自动 引用 监视 器 等 。 应 该 指出 ， 我 们 的 
基础 设施 的 开发 正在 AFOSR 和 NSF 的 资助 下 进行 。 

本 章 结构 如 下 : 在 32.2 WB, 我们 将 论述 基础 设施 。 在 32.3 节 讨 论 与 其 他 基础 设 
施 相 集成 。32. 4 节 讨 论 我 们 基础 设施 的 研究 改进 。32. 5 节 讨 论 教育 项 目 和 教育 实施 。 
在 32.6 节 对 本 章 总 结 。 图 32. 1 所 示 为 本 章 的 内 容 。 图 32. 2 所 示 为 基础 设施 的 组 件 。 
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云 安全 
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基础 设施 集成 





基础 设施 设计 





研究 加 强 





第 32 章 云 安全 的 基础 设施 《二 





教育 和 性 能 提升 


图 32.1 云 安全 基础 设施 


基础 设施 的 各 个 组 件 





硬件 基础 设施 





软件 基础 设施 





数据 基础 设施 


图 32.2 基础 设施 的 各 个 组 件 (来 自 Hamlen, K. W. ，Kantarcioglu，M. ， 和 Khan, L 的 论 
文 “Security Issues for Cloud Computing”， 发 表 自 International Journal of Information Security and Pri- 
vacy, Namati, H. (ed) ., 4 (2), 36 -48. © 2010, IGI Global. 已 获得 授权 ) 








32.2 ”基础 设施 研究 描述 


32.2.1 背景 


32.2.1.1 我 们 基础 设施 的 需求 





现在 出 现 了 安全 地 存储 、 管 理 、 共 享 和 分 析 大 量 数 据 的 需求 。 例 如 ， 我 们 会 想 统计 
分 析 多 年 的 股票 市 场 数据 ， 来 揭示 一 个 模型 ， 或 者 根据 几 年 的 天 气 和 相关 数据 建立 可 靠 
的 天 气 模 型 。 为 了 处 理 在 许多 站 点 ( 即 节 点 ) 上 分 布 的 大 量 数据 ， 我 们 需要 具有 可 扩 











展 硬件 和 软件 组 件 的 基础 设施 。 云 计算 模型 的 出 现 ， 








用 以 解决 网 络 连接 设备 的 爆炸 性 增 








长 和 处 理 大 量 数据 的 问题 。 大 规模 的 可 扩展 性 和 新 的 互联 网 驱动 的 经 济 学 是 它 的 定义 和 
特征 。Hadoop 正在 成 为 云 计算 高 级 软件 的 解决 方案 ， 它 需要 集成 Mahout, Hama 和 








Map/Reduce 等 的 软件 部 分 ( 见 本 章 参 考 文献 


[ MAHO ], [ HAMA], [ CHU07 ], 





[ DEAN04] ) 。 惠 普 Open Cirrus 测试 台 等 基础 设施 用 








的 是 HDFS。 虽 然 这 些 基 础 设施 具有 

















Hadoop 带 来 的 优势 ， 但 是 它们 也 具有 Hadoop 的 局 限 性 ， 包 括 无 法 处 理 复 杂 数 据 ， 也 没 











>y 





有 足够 的 安全 保护 。 由 于 没有 可 以 处 理由 语义 Web 和 地 理 空间 数据 组 成 的 PB 级 数据 集 





的 基础 设施 ， 以 及 为 这 些 数 据 提供 存储 和 访问 的 安全 保障 ， 因 此 我 们 正在 开发 相关 的 基 





出 设施 。 我 们 的 基础 设施 包括 硬件 组 件 、 软 件 组 件 和 数据 组 件 。 
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32.2.1.2 云 计算 中 的 Hadoop 

我 们 基础 设施 软件 组 件 的 主要 部 分 是 HDFS， 它 是 一 种 分 布 式 的 基于 Java 的 文件 系 
统 ， 有 能力 存储 PB 级 数据 的 大 量 节点 。 理 想 情况 下 ， 文件 大 小 是 64MB 的 倍数 。 它 通 
过 在 多 个 主机 上 复制 数据 来 实现 可 靠 性 。 默 认 复制 值 是 3 ( 即 数据 存储 在 3 个 节点 上 )。 
其 中 两 个 节点 驻 留 在 同一 个 机 架 上 ， 而 另 一 个 节点 位 于 不 同 的 机 架 上 。 一 组 数据 节点 集 
群 构建 文件 系统 。 节 点 通过 HTTP 传输 数据 ， 客 户 端 使 用 Web 浏览 器 访问 数据 。 数 据 节 
点 相互 通信 以 调节 、 传 输 和 复制 数据 。 

HDFS 架构 基于 主 从 式 结构 ( 见 图 32.3)。 主 站 被 称 为 Namenode 并 包含 元 数据 。 它 
保留 了 所 有 文件 的 目录 树 和 集群 中 节点 的 可 用 数据 的 记录 。 该 信息 作为 图 像 存储 在 存储 
器 中 。 数 据 块 存 储 在 DataNode 中 。Namenode 是 故障 单 点 ， 因 为 它 包含 元 数据 。 因 此 ， 
可 以 在 任何 机 器 上 设置 可 选 的 辅助 Namenode。 客 户 端 访问 Namenode 以 获取 所 需 文件 的 
元 数据 。 获 取 元 数据 后 ， 客 户 端 直接 与 各 自 的 Datanode 进行 对 话 ， 以 获取 数据 或 执行 
IO 操作 (输入 /输出 ) ( 见 本 章 参 考 文献 [HADO ] )。Map/Reduce 引擎 存在 于 文件 系统 
之 上 。 该 引 警 由 JobTracker 组 成 。 客 户 端 应 用 程序 向 该 引擎 提交 Map/Reduce 作业 。 
Job Tracker 通 过 将 作业 推送 到 集群 中 的 可 用 任务 跟踪 器 节点 ,来 将 作业 放置 在 数据 
附近 。 
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Rack 1 写 





图 32.3 HDFS 架构 


32.2.1.3 Hadoop 的 不 足 

在 撰写 本 书 的 时 候 ， 正 在 使 用 的 Hadoop 的 基础 设施 有 以 下 局 限 性 . 

1) 无 法 处 理 加 密 的 敏感 数据 : 从 医疗 记录 到 信用 卡 交易 等 敏感 数据 ， 需 要 使 用 加 
密 技 术 存 储 以 进行 额外 的 保护 。 目 前 ，HDFS 不 支持 对 加 密 数据 来 执行 安全 而 有 效 的 查 
询 处 理 。 
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2) 语义 Web 数据 管理 : 需要 一 种 可 行 的 解决 方案 ,来 提高 对 如 RDF 之 类 的 语义 
Web 数据 的 查询 性 能 和 可 扩展 性 。RDF 数据 集 的 数量 正在 增加 。 存 储 数 十 亿 RDF 三 元 
组 的 问题 和 如 何 对 其 进行 有 效 查 询 的 问题 尚 待 解决 ( 见 本 章 参考 文献 [ MUYSO6 ] 、 
[TESW07] 、[ RAMA09a -c])。 目 前 ,不 支持 在 HDFS 中 存储 和 检索 RDF 数据 。 

3) 非 细 粒度 的 访问 控制 ，HDFS 不 支持 细 粒 度 访问 控制 。 有 一 些 工 作 可 以 为 HDFS 
提供 访问 控制 列表 ( 见 本 章 参 考 文献 [ ZHANO9 ] ) 。 对 于 像 信息 共享 保障 等 许多 应 用 ， 
访问 控制 列表 是 不 足够 的 而 且 需 要 支持 更 复杂 的 策略 。 

4) 没有 强大 的 认证 : 连接 到 Jobtracker 的 用 户 ， 只 要 拥有 设置 HDFS 的 账户 权限 ， 
就 可 以 提交 任何 作业 。HDFS 的 未 来 版 本 将 支持 网 络 认 证 协议 。 例 如 ，Kerberos 用 于 用 
户 认 证 和 数据 传输 的 加 密 〈 见 本 章 参考 文献 [ZHAN09] ) 。 但 是 ， 对 于 一 些 有 保障 的 信 
息 共 享 方案 ， 我们 需要 PKI 提供 数字 签名 支持 。 


32.2.2 基础 设施 开发 


我 们 正在 开发 云 计算 安全 的 基础 设施 。 它 由 机 
械 磁 盘 驱 动 器 上 的 硬件 组 件 (包括 800TB) 的 数据 


存储 器 ，2400GB 的 内 存 和 100 个 商用 计算 机 、 一 个 "— Map zx 
软件 组 件 (包括 Hadoop ) 和 一 个 数据 组 (包括 语义 Reduce 


Web 数据 存储 库 ) 。 这 个 基础 设施 为 研究 人 员 提供 以 | 
下 支持 : GD 加 密 化 感 数据 的 高 效 存储 ; @ 存 储 、 管 理 
和 查询 大 量 的 数据 ，@ 细 粒度 访问 控制 ，@ 强 认证 。 

存 


基础 设施 的 开发 由 四 部 分 组 成 ， 以 解决 HDFS 的 每 个 内 
局 限 性 (如 图 32. 4 所 示 ) : 
1) 将 安全 协 处 理 器 (Secure Coprocessor, SCP) 处 理 器 | 硬件 


部 件 并 入 硬件 组 件 中 来 实现 敏感 数据 的 高 效 加 密 
存储 。 > did 
2) 将 包括 Mahout ( 见 本 章 参 考 文献 [MA- 


HO]), Hama ( 见 本 章 参考 文献 [ HAMA ]) Jena 
( 见 本 章 参考 文献 [JENA]) M Pele ( 见 本 章 参考 
文献 [PELL]) 在 内 的 软件 组 件 的 几 个 部 分 整合 在 一 起 ， 并 开发 出 用 于 通过 HDFS 进行 
SPARQL 查询 处 理 的 部 件 。 

3) 将 XACML ( 见 本 章 参 考 文献 [MOSE05]) 实现 部 分 整合 到 软件 组 件 中 ， 实 现 
细 粒 度 访问 控制 。 

4) 为 灵活 认证 机 制 引 入 了 一 个 组 件 。 

应 注意 到 ， 条 目 2) ~4) 是 软件 组 件 的 一 部 分 ， 而 是 1) 是 硬件 组 件 部 分 。 

可 能 会 有 人 问 我 们 这 个 问题 ， 为 什么 不 在 目前 的 云 计算 基础 架构 ， 如 Open Cirrus 
提供 的 硬件 组 件 上 实现 软件 组 件 ? 我 们 已 经 尝试 了 这 个 选项 。 首 先 ，Open Cirrus 根据 其 
经 济 模式 〈 例 如 ， 虚 拟 现金 ) 会 提供 有 限 的 访问 。 此 外 ，Open Cirrus 不 提供 我 们 需要 
的 硬件 支持 〈 例 如 ， 安 全 协 处 理 器 ) 。 不 过 ， 我 们 正在 与 HP 讨论 将 我 们 的 基础 设施 整 
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合 到 Open Cirrus 上 。 
32.2.3 基础 设施 的 硬件 组 件 


32.2.3.1 硬件 组 件 的 集群 部 分 

fr UTD， 我 们 已 经 拥有 大 量 的 硬件 来 文 持 我 们 的 研究 。 这 个 硬件 是 基础 设施 硬件 
组 件 的 一 部 分 。 我 们 目前 的 硬件 包括 3 个 具有 不 同 配置 的 主要 集群 。 第 一 个 集群 的 体积 
非常 小 ， 通 常用 作 我 们 的 测试 集群 。 它 由 4 个 节点 组 成 ， 每 个 节点 都 有 Pentium -IV 机 
器 ， 硬 盘 空 间 为 80GB ， 主 内 存 为 1CB。 我 们 使 用 此 集群 中 的 样本 数据 来 测试 我 们 的 代 
码 并 执行 各 种 优化 算法 。 第 二 个 集群 放置 在 SAIAL (有 实验 室 支持 的 安全 分 析 和 信息 保 
障 实验 室 ，Security Analysis and Information Assurance Lab with lab support) ， 共 有 32 个 节 
点 。 此 集群 中 的 所 有 节点 都 运行 在 Hadoop 的 商品 硬件 上 。 这 个 32 节点 集群 有 一 个 混合 
的 硬件 集合 ，10 个 节点 具有 一 些 高 端 配 置 ， 如 Pentium - IV 机 器 ， 每 个 磁盘 空间 为 
500GB， 主 机 内 存 为 4 GB, 38 FAY 22 个 节点 也 是 每 个 具有 磁盘 空间 大 约 为 80CB，2GB 
主 存 的 Pentium - IV 机 器 。 所 有 这 些 节 点 通过 内 部 网 络 上 的 48 端口 Cisco 交换 机 彼此 连 
接 。 只 有 主 节点 才能 从 公 网 访问 。 我 们 可 以 访问 的 第 三 个 集群 是 HP 实验 室 的 Open Cir- 
B e 。 我 们 可 以 从 他 们 的 测试 台 使 用 多 达 30 个 节点 。 每 个 节点 均 具 有 高 
端 配置 , 如 具有 8CB 主 存储 器 和 超过 ITB WEARS #3 间 以 及 四 核 处 理 峰 。 

我 们 考虑 了 项 目的 3 种 可 能 的 配置 。 如 下 : 

1) 戴尔 精密 机 器 (商品 硬件 ， 但 每 台 机 器 存储 空间 较 小 ) 。 

2) 来 自 不 同 提 供 商 的 ， 且 可 以 支持 更 多 磁盘 的 组 装 服务 器 机 器 (商品 硬件 ) 。 

3) 用 于 数据 存储 的 SAN 存储 和 用 于 计算 的 90 台 计 算 机 (成 本 为 300 万 ~400 万 美 
元 ， 其 针对 PB 级 数据 ) 。 
由 于 方案 3 特别 昂贵 ， 我 们 没有 进一步 研究 这 个 方案 。 因 此 ， 我 们 进一步 探索 了 方 
案 1 和 方案 2。 

方案 1: Dell 机 器 配置 - 集群 中 的 每 个 节点 实例 都 是 戴尔 精密 机 器 ， 拥 有 4. SGT/s 的 
单个 四 核 英特尔 至 强 处 理 器 E5502, EA 24 GB DDR3 主 内 存 ，1066MHz 和 6 DIMM。 这 样 
的 配置 允许 我 们 使 用 每 核心 高 达 6GB 的 内 存 。 这 些 节 mo e M 
个 硬盘 ， 每 个 硬盘 1.5TB ， 每 个 节点 扩大 到 OTB 存储 。 考 虑 到 Hadoop 的 复制 因子 为 3，4 
个 节点 实际 上 可 以 存储 最 多 2TB 的 数据 。 因 此 ， 如 果 我 们 选择 了 这 些 机 器 来 扩展 云 和 存储 
800TB 的 数据 ， 那 么 我 们 就 需要 400 台 机 器 ， 这 导致 物理 存储 将 是 一 个 问题 。 

方案 2: 组 装 的 服务 器 配置 - 集群 中 每 个 节点 的 一 个 实例 是 2U 机 架 式 服务 器 。 每 
个 包含 两 个 四 核 英特尔 至 强 处 理 器 5500 系列 ， 人 快速 通道 互联 (Quick Path Interconnect, 
QPI) 高 达 6.4GT《s。 此 外 ， 每 个 服务 器 包含 24 GB (12 x MEM DDRII 1333 2 GB ECC/ 
REG) 内 存 。 因 此 ， 这 种 配置 允许 我 们 使 用 每 个 处 理 器 大 约 有 12GB 的 内 存 和 每 个 内 核 
A 3GB 的 内 存 。 我 们 也 有 空间 将 内 存 扩 展 到 48GB。 此 外 ， 每 个 服务 器 都 配 有 Infband 
20Gbit/s 控制 器 ， 其 中 的 SATA 还 支持 硬盘 RAID 5。 网 络 控 制 器 是 Intel? 82576 双 端 口 
千 兆 以 太 网 控制 器 ， 并 且 也 支持 10BASE -T、100BASE - TX 和 1000B ASE 一 T、RJ45 输 
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出 ， 通 过 网 络 进行 10 操作 或 数据 传输 时 ， 可 以 减少 出 现 瓶 颈 的 可 能 性 。Hadoop 是 分 布 
式 文件 系统 ， 因 此 ， 每 个 节点 都 是 固态 驱动 器 以 及 传统 存储 设备 组 合 的 设备 。 每 个 服务 
器 均 可 能 包含 128GB 固态 磁盘 (SSD) WR 12 个 具有 传统 存储 功能 的 磁盘 。 它 具有 
12 x3.5“ 热 插 拔 SAS/SATA 驱动 器 托盘 ， 我 们 正在 使 用 的 12 x HD WD20EADS SATA2 
2TB 低 功 耗 版 本 ， 为 每 个 节点 提供 总 共 24TB 的 物理 可 用 磁盘 空间 。Hadoop 是 可 靠 的 ， 
因为 它 维护 数据 的 复制 ， 默 认 复制 因子 为 3， 每 个 节点 可 以 存储 最 多 STB 的 数据 ， 其 中 
5% ~10% 由 Hadoop 临时 目录 使 用 ， 需 要 交换 空间 用 于 Map - Reduce 功能 。 

这 些 工 作 一 旦 完成 ， 我 们 的 云 将 由 最 多 5 个 机 架 中 的 100 个 这 样 的 节点 组 成 。 这 些 
节点 是 存储 节点 和 计算 节点 的 组 合 ， 其 中 一 些 两 者 兼 有 。 我 们 正在 为 机 架 内 通信 提供 
Cisco 6509 交换 机 ， 以 提高 吞吐 量 。 另 外 ， 根 据 上 述 每 个 节点 的 配置 ， 我 们 拥有 2400TB 
(2.4PB) 的 传统 磁盘 存储 空间 和 约 3.2TB 的 SSD (假设 部 署 了 100 个 节点 的 25 个 
SSD) 。 考 虑 到 Hadoop 的 复制 因子 ， 我们 的 云 最 多 可 以 存储 高 达 800TB 的 数据 。 

ETE, 我们 将 HDFS 规范 与 基准 硬件 进行 了 比较 。Hadoop - Apache Wiki 上 的 基准 
硬件 提供 了 两 个 名 为 Herd 1 和 Herd 2 的 基准 集群 。 例 如 ，Herd 1 中 的 每 个 节点 包括 Intel 
Xeon LV 2. 0CHz， 四 核 , 4GB RAM 和 4 个 磁盘 ， 每 个 均 是 0. 25TB SATA, Herd 1 由 两 个 机 
架 中 的 35 个 节点 组 成 。 在 我 们 的 云 中 ， 每 个 节点 都 有 两 个 四 核 处 理 器 和 大 容量 的 RAM 
(24GB), ， 比 基准 硬件 要 好 。 因 此 ， 我 们 预计 应 用 在 我 们 的 云 上 会 有 很 好 的 效果 。 
32.2.3.2 硬件 组 件 中 的 安全 协 处 理 器 部 分 

我 们 正在 如 下 的 硬件 上 实现 这 个 组 件 。 和 能 入 SCP 来 有 效 处 理 加 密 数 据 ( 见 图 
32.5) 。 基 本 上 ，SCP 是 能 够 进行 有 限 的 通用 计算 的 防 算 改 硬件 。 例 如 ，IBM 4758 密码 
协 处 理 器 ( 见 本 章 参 考 文献 [IBM04]) 是 由 包含 在 防 算 改 外 这 中 的 CPU、 内 存 和 专用 
密码 硬件 组 成 的 单 板 计算 机 ， 经 FIPS PUB 140 -1 认证 为 4 级 。 当 安装 在 服务 器 上 时 ， 
它 能 够 进行 本 地 计算 且 能 完全 隐藏 在 服务 器 中 。 如 果 检 测 到 被 算 改 ， 则 SCP 会 清除 内 
部 记忆 。 由 于 SCP 是 防 算 改 的 ， 可 能 会 诱 使 在 SCP 上 运行 整个 敏感 数据 存储 服务 器 。 
将 整个 数据 存储 功能 推送 到 SCP 中 是 不 可 行 的 ， 原 因 有 很 多 。 

首先 ， 由 于 防 算 改 的 加 壹 处 理 ，SCP 通常 具有 有 限 的 内 存 (只 有 几 兆 字 节 的 RAM 
和 几 千 字 节 的 非 易 失 性 存储 器 ) 和 计算 能 力 〈 见 本 章 参考 文献 [SMIT99 ] ) 。 性 能 会 随 
着 时 间 的 推移 而 改善 ， 但 是 像 散 热 /功率 使 用 (必须 控制 以 避免 暴露 处 理 ) 的 问题 ,将 
迫使 通用 性 和 安全 计算 之 间 存 在 差距 。 另 一 个 问题 是 在 SCP 上 运行 的 软件 必须 完全 信 
任 和 被 验证 。 这 个 安全 要 求 意味 着 在 SCP 上 运行 的 软件 应 该 是 尽 可 能 地 保持 简单 。 那 
么 这 个 硬件 又 如 何 有 助 于 存储 大 型 敏感 数据 集 ? 我 们 可 以 使 用 随机 私 钥 加 密 敏感 数据 
集 ， 并 减少 密 钥 汇 露 的 概率 ,我 们 还 可 以 使 用 防 算 改 硬件 来 存储 一 些 加 密 / 解 密 密 钥 
( 即 ， 加 密 所 有 其 他 密 钥 的 主 密 钥 ) 。 由 于 密 钥 不 会 随时 存储 在 未 加 密 的 内 存 中 ， 攻 击 
者 可 以 通过 拍摄 系统 的 快照 来 寻找 密 钥 。 此 外 ， 攻 击 者 通过 软件 或 物理 机 构 控 制 (或 
算 改 ) 协 处 理 器 的 任何 尝试 ， 都 将 清除 协 处 理 器 的 内 容 ， 这 样 ， 也 就 消除 了 一 种 解密 
任何 敏感 信息 的 方法 。 该 框架 将 促进 安全 的 数据 存储 和 信息 共享 保障 。 例 如 ，SCP 可 用 
于 保密 信息 集成 ， 这 对 保证 信息 共享 非常 重要 ( 见 本 章 参 考 文献 [ AGRA06]). 
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图 32.5 SPARQL 查询 处 理 (来 自 Hamlen, K. W. , Kantarcioglu, M. ， 和 Khan, L 的 论文 
“Security Issues for Cloud Computing”， 发 表 自 International Journal of Information Security and Priva- 


cy, Namati, H. (ed. ), 4 (2), 36-48. © 2010, IGI Global. 已 获得 授权 ) 








32.2.4 基础 设施 的 软件 组 件 


32.2.4.1 用 于 存储 、 查 询 和 挖掘 语义 Web 数据 的 组 件 部 分 

软件 组 件 的 这 一 部 分 包括 以 下 内 容 : 

Jena; 这 是 一 个 广泛 用 于 解决 基于 RDF 数据 的 SPARQL 查询 的 框架 ( 见 本 章 参考 
文献 [JENA] )。 但 Jena 的 主要 问题 是 可 扩展 性 。 它 与 主 存储 器 的 大 小 成 比例 。 它 不 支 
持 分 布 式 处 理 。 然 而 ， 在 我 们 预 处 理 步骤 的 初始 阶段 ， 我 们 使 用 的 是 Jena, 

Pelle; 我 们 在 多 个 不 同 的 阶段 使 用 Pellet 推理 。 我 们 使 用 Pellet Æ ( 见 本 章 参考 文 
wk [PELL]) 和 Hadoop 的 Map / Reduce 进行 实时 查询 推理 功能 。 

Pig Latin; Pig Latin 是 一 种 运行 在 Hadoop ( 见 本 章 参 考 文献 [GATE09]) 之 上 的 脚 
本 语言 。Pig 是 分 析 大 数据 集 的 平台 。Pig 的 语言 Pig Latin 可 以 促进 顺序 数据 的 转换 。 例 
如 ， 合 并 数据 集 并 过 滤 它 们 ， 以 及 将 功能 应 用 于 记录 或 记录 组 。 它 具有 许多 内 置 功能 ， 
但 我 们 也 可 以 创建 属于 自己 的 用 户 定义 功能 来 进行 专门 的 处 理 。 使 用 这 种 脚本 语言 ， 我 
们 可 以 避免 编写 Map / Reduce 代码 。 可 以 依靠 Pig Latin 的 脚本 功能 ， 自 动 生成 脚本 代 
fi Fl) Map / Reduce 代码 。 

Mahout, Hama; 这 些 是 已 经 增加 了 Hadoop ( 见 本 章 参 考 文献 [MAHO], [HAMA, 
[MORE08]) 的 开源 数据 挖掘 和 机 器 学 习 软 件 包 。 

通过 Hadoop 进行 SPARQL 查询 及 其 优化 : SPARQL 是 一 种 查询 语言 ， 用 于 查询 
RDF 数据 。 我 们 正在 开发 的 软件 部 分 是 查询 框架 ， 主 要 查询 通过 Hadoop 分 发 的 RDF 数 
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据 〈 见 本 章 参考 文献 [NEWM08] 、[ MCNA07] 、[ ROHL07] ) 。 其 中 有 几 个 步骤 来 进行 
预 处理 和 查询 RDF 数据 ( 见 图 32.5) 。 有 了 这 部 分 ， 研 究 人 员 可 以 获得 结果 来 优化 大 
量 数据 的 查询 处 理 。 下 面 ， 我 们 讨论 这 一 部 分 开发 中 涉及 的 步 又。 

预 处 理 : 通常 RDF 数据 是 XML 格式 (参见 LUBM, RDF 数据 ) 。 要 执行 SPARQL 
查询 ， 我 们 先 要 执行 数据 预 处 理 步 又 ， 并 将 预 处 理 过 的 数据 存储 到 HDFS。 我 们 有 一 个 
三 元 组 转换 器 模块 ， 该 模块 将 RDE/XML 格式 的 数据 转换 为 更 容易 理解 的 w 个 三 元 组 格 
式 。 为 实现 这 一 转换 的 目的 ， 我 们 使 用 Jena 框架 。 在 基于 谓词 的 文件 分 割 模块 中 ， 我 
们 根据 谓词 拆 分 所 有 的 个 三 元 组 格式 的 文件 。 因此 ， 数据 集 的 文件 总 数 等 于 本 体 / 分 
类 法 中 谓词 的 数量 。 在 预 处 理 步 又 的 最 后 一 个 模块 中 ， 我 们 在 它 包 含 客体 类 型 的 基础 上 
进一步 划分 谓词 文件 。 所 以 现在 ， 每 个 谓词 文件 都 有 特定 类 型 的 客体 。 这 是 在 Pellet 库 
的 帮助 下 完成 的 。 这 些 预 处 理 数 据 存储 在 Hadoop 中 。 
查询 执行 和 优化 : 我 们 为 Hadoop 开发 了 一 个 SPARQL 查询 执行 和 优化 模块 (在 第 
13 章 中 讨论 过 ) 。 由 于 我 们 的 存储 策略 是 基于 谓词 分 割 的 ， 所以: 第 一 ， 我 们 要 查看 查 
询 中 存在 的 谓词 。 第 二 ， 并 不 是 查看 所 有 的 输入 文件 ,我们 只 查看 输入 文件 中 与 谓词 匹 
配 的 子 集 。 第 三 ，SPARQL 查询 通常 在 其 中 具有 许多 连接 ， 并且 所 有 这 些 连 接 均 可 能 无 
法 在 单个 Hadoop 作业 中 执行 。 因此， 我 们 设计 一 个 算法 来 决定 每 种 查询 所 需 的 作业 数 
量 。 作 为 优化 的 一 部 分 ， 我 们 应 用 贪 梦 策略 和 基于 成 本 的 优化 ， 来 减少 查询 处 理 时 间 。 
信 末 策略 的 一 个 例子 是 覆盖 单个 作业 中 可 能 连接 的 最 大 数量 。 对 于 成 本 模型 ， 首 先 执行 
的 连接 是 基于 汇总 统计 的 〈 例 如 ， 有 界 变量 的 选择 性 因子 ， 为 3 个 三 元 组 模式 的 连接 三 
元 组 选择 因子 ) 。 例 如 ， 考 虑 对 LUBM 数据 集 的 查询 : 

“ 列 出 所 有 属于 特定 大 学 校友 的 人 ”。 

在 SPARQL 中 ， 此 查询 指定 如 下 : 

PREFIX rdf: <http:/hwww.w3.org/1999/02/32-rdf-syntax-ns#> 

PREFIX ub: «http:f/unvw.lehigh.edu/-zhp2/2004/0401/univ-bench.owlt» 

SELECT :X WHERE { 

2X rdf-type ub:Person. 

«http:lhwww.University0.edu» ub:hasAlumnus 2X} 

根据 查询 中 出 现 的 谓词 ， 查 询 优 化 器 接受 此 查询 输入 ， 决 定 要 查看 的 输入 文件 的 子 
集 。 本 体 和 Pellet 推理 器 识别 与 谓词 “hasAlumnus” 相 关 的 三 个 输入 文件 (在 Under 
GraduateDegreeFrom, MasterDegreeFrom 和 DoctoraldegreeFrom ) 。 接 下 来 ， 从 文件 的 类 型 ， 
我 们 使 用 Pellet 库 过 滤 出 客体 是 人 的 子 类 的 所 有 记录 。 从 这 三 个 输入 文件 (Under Grad- 
uate Degree From, Master Degree From 和 Doctoral degree From) ， 优 化 絮 根 据 查询 的 要 求 ， 
以 及 根据 < http : // www. University 0. edu > 过 滤 出 三 元 组 。 最 后 ， 优 化 器 确定 对 这 种 
类 型 的 查询 中 单个 作业 的 需求 ， 然 后 在 该 作业 中 的 变量 X 上 执行 连接 。 
32.2.4.2 ”使 用 IRM 将 SUN XACML 实现 集成 到 HDFS 中 

目前 的 Hadoop 实现 强制 执行 粗 粒 度 的 访问 控制 策略 ， 它 实际 上 将 所 有 系统 资源 作 
为 一 组 ， 进 行 允 许 或 拒绝 访问 ， 而 不 区 分 资源 。 例 如 ， 授 予 访 问 Namenode 的 用 户 可 以 
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在 任何 客户 端 机 器 上 执行 任何 程序 ， 并 且 所 有 客户 机 都 具有 对 存储 在 所 有 客户 端 上 的 所 
有 文件 的 读 写 访问 权限 。 当 数据 、 查 询 和 相应 的 系统 资源 与 安全 性 相关 时 ， 以 及 并 不 是 
所 有 用 户 和 进程 都 被 完全 信任 时 ， 这 种 粗 粒度 的 安全 性 显然 是 不 可 接受 的 。 目 前 的 工作 
( 见 本 章 参 考 文献 [ZHAN09]) 是 通过 实现 Hadoop 的 标准 访问 控制 列表 ， 来 解决 限制 
对 某 些 系统 资源 (如 文件 ) 访问 的 问题 。 然 而 ， 这 种 方法 的 局 限 性 在 于 强制 执行 的 安 
全 策略 被 固化 在 操作 系统 中 ， 因 此 在 不 修改 操作 系统 的 情况 下 就 不 容易 改变 。 通 过 设计 
Sun XACML 的 IRM 实现 ， 我 们 正在 对 Hadoop 执行 更 灵活 和 更 细 粒 度 的 访问 控制 策略 。 
XACML ( 见 本 章 参 考 文献 [MOSE05 ] ) 是 OASIS 标准 用 于 在 XML 中 表达 访问 控制 策略 
的 丰富 语言 。 主 体 、 客 体 、 关 系 和 上 下 文 在 XACML 中 都 是 通用 和 可 扩展 的 ， 使 其 非常 
适合 于 分 布 式 环境 ， 这 种 环境 下 许多 不 同 子 策略 之 间 进 行 交互 ， 以 形成 更 大 、 复 合 、 系 
统 级 的 策略 。 一 个 抽象 的 XACML 执行 机 制 如 图 32. 6 所 示 。 框 架 中 不 受信 任 的 进程 ， 通 
过 向 资源 的 PEP 提交 请 求 ， 来 访问 与 安全 相关 的 资源 。PEP 将 请 求 重 新 格式 化 为 策略 
查询 ， 并 将 其 提交 给 PDP, PDP 会 咨询 任何 与 请 求 相关 的 策略 来 回答 查询 。PEP 根据 接 
收 到 的 答案 来 批准 或 拒绝 资源 请 求 。 虽 然 执 行 机 制 的 PEP 和 PDP 组 件 ， 传 统 上 是 在 操 
作 系 统 级 别 或 可 信 系 统 库 中 实现 的 ， 但 通过 在 基础 设施 中 将 其 实施 为 IRM， 我 们 可 以 实 
现 更 大 的 灵活 性 。 IRM 通过 将 这 些 检查 直接 内 插 到 不 可 信 过 程 的 二 进 制 代码 ， 来 实现 运 
行 时 的 安全 检查 。 这 具有 一 个 优点 ， 可 以 在 不 修改 操作 系统 或 系统 库 的 情况 下 实施 该 策 
略 。IRM 策略 还 可 以 约束 在 操作 系统 级 别 上 可 能 难以 或 不 可 能 拦截 的 程序 操作 。 例 如 ， 
Java 中 的 内 存 分 配 实现 时 ， 不 调用 任何 外 部 程序 或 库 的 Java 字 节 码 指 令 。 
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图 32.6 XACML 的 执行 机 制 (来 自 Hamlen，K. W. , Kantarcioglu, M. ， 和 Khan,，L 的 论文 
“Security Issues for Cloud Computing" ÆR A International Journal of Information Security and Privacy, 
Namati, H. (ed.), 4 (2), 36-48. © 2010, IGI Global. 已 获得 授权 ) 

因此 ， 作 为 传统 的 引用 监视 器 ， 可 以 在 Java 中 执行 细 粒 度 的 内 存 绑 定 策略 ， 因 此 
需要 修改 Java 虚拟 机 或 JIT 编译 器 。 相 比 之 下 ，IRM 可 以 识别 这 些 与 安全 相关 的 指令 ， 
并 把 适当 的 保护 程序 直接 注入 不 可 信 代 码 来 执行 策略 。 

最 后 ，IRM 可 以 有 效 地 执行 基于 历史 的 安全 策略 ， 而 不 只 是 限制 个 人 安全 相关 事件 
的 策略 。 例 如 ， 过 去 作者 在 工作 中 ( 见 本 章 参 考 文献 [JONE09]) 已 经 使 用 了 IRM 执 
行 公平 性 策略 ， 要 求 不 受信 任 的 应 用 程序 共享 它们 所 请 求 的 数据 。 这 可 以 防止 进程 受到 
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基于 自由 载 人 行为 而 产生 的 拒绝 服务 攻击 影响 。 由 IRM 注入 不 可 信 二 进 制 码 的 代码 ， 
是 基于 过 去 的 程序 操作 历史 而 不 是 孤立 地 限制 每 个 程序 操作 。 这 涉及 将 安全 状态 变量 和 
计数 器 注入 到 不 可 信 代 码 中 ,但 这 在 操作 系统 级 别 难以 高 效 地 完成 。 

IRM 框架 的 核心 包括 二 进 制 重 写 器 ， 它 在 执行 之 前 静态 修改 每 个 不 受信 任 进 程 的 二 
进 制 代 码 ， 将 安全 防范 机 制 插 入 洪 在 的 危险 操作 中 。 我 们 的 二 进 制 重 写 器 基于 SPoX 
(安全 策略 XML) 实现 〈 见 本 章 参 考 文献 [ HAML08]) ， 开 发 重 写 器 ， 目 的 是 为 Java ^ 
节 码 程序 执行 声明 性 的 基于 XML 的 IRM 策略 。 为 了 给 我 们 的 系统 提供 强大 的 安全 保 
障 ， 我 们 应 用 了 自动 化 软件 验证 技术 ， 包 括 类 型 和 模型 检查 ， 我 们 以 前 将 它们 用 于 证 明 
二 进 制 重 写 器 的 输出 〈 见 本 章 参考 文献 [ HAML06 ] 、[ DEVR09 ])。 这 种 认证 允许 小 
型 、 可 信和 验证 者 去 独立 地 证 明 ， 重 写 的 二 进 制 代码 来 满足 原始 安全 策略 ， 从 而 将 相对 较 
大 的 二 进 制 重 写 器 从 系统 的 可 信 计 算 基 础 中 解脱 出 来 。 

一 旦 实施 了 基础 框架 ， 未 来 我 们 就 可 以 通过 结合 上 下 文 和 时 间 策 略 以 及 数据 来 源 策 
略 、 角 色 和 使 用 方法 来 扩展 这 个 框架 。 
32.2.4.3 强 认 证 的 组 件 部 分 

目前 ，Hadoop 不 会 对 用 户 进 行 身 份 验证 。 这 使 得 很 难 对 安全 敏感 的 应 用 程序 实施 
访问 控制 ， 并 使 得 恶意 用 户 更 容易 回避 HDFS 实施 的 文件 权限 检查 。 为 了 解决 这 些 问 
题 ,， 开源 社 区 正在 积极 地 将 Kerberos 协议 与 Hadoop 集成 ( UL AN XE AX 
[ZHAN09 ] ) f£ Kerberos 协议 之 上 ， 对 于 一 些 信 息 共 享 保障 任务 ， 可 能 需要 添加 简单 
的 认证 协议 来 与 安全 的 协 处 理 需 进行 认证 。 因 此 ， 我 们 向 基础 架构 添加 了 一 个 简单 的 
PKI， 以 便 用 户 可 以 使 用 安全 的 协 处 理 器 独立 验证 ， 以 检索 用 于 加 密 敏 感 数据 的 密 钥 。 
我 们 打算 在 实现 基础 设施 时 使 用 开放 源码 PKI， 例 如 ，OpenCA PKI，( 见 本 章 参考 文献 
[ OPEN] ) 。 


32.2.5 基础 设施 的 数据 组 件 


该 组 件 由 语义 Web 数据 存储 库 组 成 。 我 们 用 Lehigh University Benchmark ( 见 本 章 参 
考 文献 [LUBM]) 和 Barton 数据 集 ( 见 本 章 参 考 文献 [ HURTO6 ]) 。LUBM 数据 集 是 代 
表 大 学 领域 的 综合 数据 集 。 它 允许 我 们 改变 数据 集中 三 元 组 的 数量 来 测试 可 扩展 性 。 
Barton 数据 集 不 是 一 个 合成 数据 集 。 相 反 ， 它 是 用 MIT 图 书馆 目录 的 RDF 表示 。 我 们 
选择 它 主 要 是 因为 ， 它 是 评估 先前 研究 语义 Web 的 共同 特征 。Barton 数据 集 用 于 本 章 参 
考 文献 [WEISOS] 中 的 评估 。 

Barton 数据 集 包含 大 量 唯一 的 URI: 在 一 个 有 5000 万 个 三 元 组 的 数据 集中 包含 
1850 万 个 URI。 存 储 库 可 以 建立 在 我 们 当前 的 集群 上 ， 也 可 以 建立 在 我 们 使 用 的 任何 数 
据 集 的 新 基础 架构 上 ， 具 体 取 决 于 数据 的 大 小 。 我 们 正在 建立 一 个 基础 架构 ， 可 以 存储 
高 达 800TB 的 数据 ， 超 过 1000 亿 个 RDF 三 元 组 。 此 外 ， 由 于 每 台 机 器 中 的 磁盘 空间 
(24TB) 和 主 内 存 (24GB) 都 较 大 ， 因 此 新 的 基础 设施 可 以 处 理 更 大 量 的 数据 。 


32.3 ”将 云 与 现 有 基础 设施 相 和 集成 


我 们 还 将 集成 运行 在 UTD 的 SAIAL 中 的 基础 设施 ， 以 及 在 每 个 研究 实验 室 中 建立 
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的 基础 架构 。 我 们 还 有 一 个 额外 的 实验 室 (目前 没有 使 用 ) 来 存储 一 些 硬件 部 件 。 我 
们 正在 探索 两 种 集成 方法 。 

分 离 当前 的 基础 设施 和 新 的 基础 设施 : 在 这 里 ， 我 们 拥有 规范 化 形式 的 数据 ， 并 将 当 
前 的 集群 加 载 到 新 的 基础 设施 中 。 之 后 ， 对 基础 设施 上 存在 的 规范 化 数据 执行 和 测试 不 同 
的 Map Reduce 算法 。 优 点 是 我 们 将 旧 硬 件 与 新 硬件 分 开 。 主 要 缺点 是 此 时 我 们 必须 生成 
和 处 理 大 量 的 数据 。 考 虑 使 用 LUBM 数据 集 的 SPARQL 查询 优化 模块 。 我 们 目前 的 基础 设 
施 可 以 处 理 总 共 规模 为 414GB 的 55 亿 个 三 元 组 。 要 使 用 我 们 当前 的 集群 生成 1000 亿 个 三 
元 组 的 大 数据 ， 我 们 需要 进行 数据 生成 ， 并 将 其 定期 转移 到 新 的 基础 设施 上 。 

将 新 的 基础 设施 与 当前 的 基础 设施 相 结合 : 在 这 里 ， 我 们 可 以 将 当前 的 基础 设施 与 
新 的 基础 设施 合并 ， 并 使 用 组 合 的 能 力 用 于 数据 生成 、 数 据 预 处 理 ， 以 及 执行 和 测试 
Map Reduce 算法 。Hadoop 使 我 们 能 够 在 任何 时 间 点 从 集群 中 添加 或 删除 节点 。 要 合并 
它们 ， 我 们 必须 在 同一 个 内 部 网 络 上 设置 所 有 的 机 器 ， 这 可 以 通过 使 用 交换 机 来 实现 。 
缺点 是 混合 不 同 的 硬件 ， 性 能 可 能 会 受到 影响 。 这 是 由 于 没有 面向 性 能 的 变量 设置 。 我 
们 整个 集群 是 具有 2 ~4GB 的 主 内 存 ， 硬 盘 空 间 大 约 200GB 的 几 个 节点 〈 旧 机 器 ) 的 混 
合体 ， 而 其 他 是 拥有 24GB 的 主 内 存 ， 磁 盘 空 间 为 STB 的 节点 (新 基础 设施 )。 但 是 ， 
可 以 通过 调整 Hadoop 中 可 用 的 几 个 性 能 相关 的 变量 来 提高 性 能 。 因 此 ， 基 于 上 述 讨论 ， 
我 们 倾向 于 将 我 们 的 基础 设施 与 当前 的 基础 设施 的 训练 和 研究 相 结合 。 

与 外 部 基础 设施 集成 : UTD 团队 正在 使 用 HP 实验 室 的 Open Cirrus 测试 平台 进行 实 
验 。 而 我 们 的 基础 设施 将 大 大 增强 这 个 测试 平台 的 能 力 。 此 外 ,我 们 计划 与 NSF/DOE 
(美国 能 源 部 ) 开放 科学 研究 人 员 和 国防 部 研究 人 员 一 起 ， 整 合 我 们 的 基础 设施 。 


32.4 利用 云 基础 设施 的 示例 项 目 


1) 一 种 高 效 的 隐私 保护 分 布 式 数据 分 析 综 合 方法 。 目 前 ， 我 们 正在 为 大 型 分 布 式 
数据 集 开发 高 效 的 隐私 保护 数据 分 析 工 具 。 它 主要 是 进行 一 些 实验 的 绝 佳 工具 ， 以 模拟 
使 用 我 们 的 新 技术 挖掘 大 量 隐私 敏感 电子 病历 。 此 外 ， 这 个 工具 使 我 们 能 够 在 大 规模 的 
隐私 保护 数据 分 析 应 用 中 ， 探 索 现 代 安 全 硬件 (如 SCP) 的 可 能 用 途 。 

2) 用 于 策略 规范 在 共享 环境 中 实施 的 语义 框架 。 作 为 这 个 项 目的 一 部 分 ， 我 们 制 
定 了 一 个 策略 框架 。 利 用 语义 网 络 Web 工具 进行 本 体 管理 和 推理 。 目 前 的 语义 Web T. 
具 面临 的 一 个 问题 是 ， 它 们 在 存储 方面 和 推理 方面 都 不 能 很 好 地 进行 扩展 。 我 们 相信 基 
础 设施 的 存储 、 查 询 和 推理 能 力 ， 可 用 于 实现 高 效 的 存储 、 查 询 和 推理 。 

3) 信息 共享 保障 生命 周期 的 框架 。 为 了 测试 我 们 正在 开发 的 解决 方案 ， 需 要 一 个 
可 扩展 的 平台 来 支持 复杂 的 策略 管理 。 我 们 的 基础 设施 提供 了 这 样 一 个 平台 。 例 如 ， 
XACML 策略 的 可 扩展 ， 实 现 可 以 用 于 跨 组 织 的 信息 共享 。 信 息 共享 基础 设施 可 以 增强 
SCP 部 分 的 能 力 ， 以 存储 、 查 询 加 密 数 据 。 这 个 项 目 让 我 们 有 机 会 在 多 个 站 点 上 分 发 
云 ， 并 测试 我 们 的 基础 架构 。 

4) 构 入 引用 监视 认证 。 我 们 正在 开发 一 套 工 具 ， 用 于 解析 、 分 析 、 执 行 声 明 指 定 
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的 IRM 安全 策略 ， 执 行 策 略 需 通过 自动 重 写 Java 字 节 码 二 进 制 文件 。 这 一 努力 的 一 个 
重要 方面 是 ， 在 大 规模 应 用 和 实际 的 安全 人 敏感 架构 中 应 用 和 测试 该 技术 。 基 础 设施 是 一 
个 很 好 的 平台 ， 能 用 于 我 们 的 研究 问题 ， 且 能 针对 并 行 高 度 分 布 式 架构 中 实施 高 效 的 
IRM 遇 到 的 挑战 ， 而 研发 出 实际 的 解决 方案 。 

5) RDF 数据 的 关系 转换 。 我 们 目前 不 能 很 好 地 满足 对 RDF 数据 的 关系 转换 的 实现 
( 见 本 章 参考 文献 [ RAMA09a] 、[ RAMA09b])。 它 可 以 处 理 有 限 数量 的 RDF 三 元 组 
( 百 万 级 别 ) 来 执行 SPARQL 查询 。 然 而 ， 使 用 我 们 的 基础 设施 对 Hadoop 的 SPARQL Æ 
询 进 行 优 化 ， 我 们 将 能 够 处 理 数 十 亿 的 三 元 组 。 因 此 ， 通 过 利用 基础 设施 ，R2D 包装 
器 将 为 语义 Web 社区 提供 可 扩展 的 解决 方案 。 

6) 模式 /本 体 匹 配 。 为 了 促进 本 体 / 模 式 匹配 ( 见 本 章 参考 文献 [PARTO ] 、 
[PART08] 、[SUBB07] 、[ ALIP11 ] ) ， 我 们 需要 提取 一 个 高 维度 特征 集 ， 并 确定 其 对 应 
的 权重 。 由 于 其 序列 性 质 ， 该 特征 提取 过 程 对 于 现 有 技术 状况 是 非常 耗 时 的 。 我 们 的 基 
础 设施 将 能 够 快速 提取 大 型 功能 集 。 因 此 ， 我 们 将 利用 我 们 基础 架构 的 并 行 和 分 布 式 处 
理 能 力 来 加 强 我 们 的 研究 。 

7) 事件 数据 集 。 一 个 挖掘 和 理解 异常 事件 的 组 织 方法 一 一 由 于 汇总 数据 的 不 精确 
性 ,我们 的 微 集群 /汇总 策略 可 能 会 对 完整 分 类 的 准确 性 产生 不 利 影响 。 如 果 我 们 保留 
原始 数据 以 及 汇总 数据 会 更 好 。 由 于 主要 的 内 存 限制 ， 目 前 我 们 需要 立即 丢弃 每 个 块 的 
原始 数据 ( 见 本 章 参 考 文献 [MASU08] 、[MASU09]) 。 然 而 ， 使 用 HDFS 与 Pig Latin 
( 见 本 章 参考 文献 [GATEO9]), ， 我 们 将 能 够 快速 处 理 大 量 数据 。 这 样 ， 我 们 就 可 以 在 
高 速 存储 器 中 存储 原始 数据 和 摘要 数据 。 此 外 ，SSD 将 促进 数据 的 高 速 检 索 ， 从 而 大 大 
提高 分 类 培训 和 测试 的 速度 。 

8) 云 计算 安全 。 我 们 已 经 开发 了 几 种 云 计算 安全 技术 ， 包 括 云 数据 和 信息 管理 安 
全 ( 见 第 五 、 第 六 、 第 七 部 分 的 第 13、14、15、22 23, 24, 25, 26, 27, 28 章 )。 此 
外 ， 我 们 还 开发 了 云 的 安全 模型 。 我 们 可 以 使 用 基础 设施 来 测试 技术 和 工具 。 我 们 将 在 
第 34 章 讨论 这 项 研究 的 一 些 细 节 ， 并 提供 几 个 参考 。 


32.5 教育 与 实施 













































































32.5.1 加 强 教育 


我 们 提供 多 个 信息 安全 和 信息 管理 课程 ， 包 括 数据 和 应 用 程序 、 安 人 全、 隐私、 密码 
学 、 数 字 了 取证、 软件 和 语言 安全 、 可 靠 的 语义 Web 、 数 据 挖掘 、 多 媒体 信息 系统 和 网 络 
服务 。 这 些 课 程 受益 于 基础 设施 。 我 们 还 正在 开发 云 计算 安全 新 课程 ， 其 中 受到 NSF 
基金 的 支持 ， 并 将 在 第 33 章 中 进行 讨论 。 此 外 ， 作 为 数据 和 应 用 程序 安全 性 编程 项 目 
的 一 部 分 ， 也 是 为 了 可 信 的 语义 Web 课程 ， 我 们 设计 了 课程 项 目 ， 让 学 生 们 支持 基础 
设施 的 开发 。 还 有 一 个 项 目 是 增强 XACML 的 实现 ， 并 提供 基于 上 下 文 、 时 间 和 惯例 的 
访问 。 因 此 ， 不 仅 课 程 从 基础 设施 中 受益 ， 基 础 设施 也 受益 于 课程 。 
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32.5.2 实施 
软件 组 件 的 SPARQL 查询 处 理 部 分 是 评估 性 能 的 理想 选择 。 我 们 正在 利 

















用 Lehigh 


University Benchmark ( 见 本 章 参 考 文献 [LUBM]) 和 Barton 数据 集 ( 见 本 章 参 考 文献 
[HURTO6]) 两 个 基准 来 实施 和 评估 和 实验。 我 们 已 经 尝试 了 LUBM 的 数据 集 ， 从 100 万 
到 55 亿 个 三 元 组 ， 该 数据 集 提供 了 一 个 明确 的 OWL 本 体 ， 并 包括 推理 规则 。 许 多 研究 
项 目 ， 包 括 Hexastore ( 见 本 章 参考 文献 [ WEISOS]) 均 已 经 使 用 LUBM 进行 评估 。 我 
们 创建 了 一 个 具有 5.5 亿 个 三 元 组 /数组 的 数据 库 ， 存 储 大 小 为 1.2TB (中 间 文 件 - n3 
格式 ) / 414GB (标准 化 数据 ) 。 作 为 评估 的 一 部 分 ， 我 们 正在 对 更 大 的 数据 集 进 行 






































多 的 实验 。 


32.6 总结 和 展望 














在 本 章 中 ， 我 们 描述 了 为 云 安全 而 开发 的 基础 设施 来 支持 我 们 的 项 目 。 我 们 的 云 由 
并 利用 
我 们 的 基础 设施 开发 了 一 些 工具 。 其 中 一 些 工具 在 本 书 4. 13 ~4.15 节 与 4.22 ~4.28 节 
与 第 6 章 和 第 7 章 中 讨论 过 。 这 些 工 具 包 括 云 中 的 查询 处 理 安全 、 云 中 的 社交 网 络 和 云 
中 的 恶意 软件 检测 。 我 们 利用 Hadoop/Map/Reduce 技术 为 云 提 供 数 据 存储 。 我 们 将 继续 














硬件 组 件 、 软 件 组 件 和 数据 组 件 组 成 。 我 们 正在 将 云 与 当前 的 基础 设施 相 结合 ， 
































加 强 基础 设施 ， 以 满足 研究 和 教育 的 需要 。 此 外 ， 随 着 技术 的 进步 ， 我 们 将 升级 云 。 了 
们 所 面临 的 一 个 问题 是 建立 自己 的 云 还 是 利用 类 似 Amazon 的 EC2 等 云 。 我 们 将 利用 9 
们 的 云 和 由 第 三 方 提供 商 提供 的 云 。 我 们 相信 ， 对 于 我 们 的 一 些 研究 和 教育 工作 ， 我 人 
















































































dd 


需要 拥有 自己 的 云 。 然 而 ,为 了 进行 大 量 的 数据 人 处理, 我们 可 能 会 从 使 用 类 似 Amazon 











EC2 等 云 中 而 受益 。 
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33.1 概述 


如 第 32 章 所 述 ， 为 了 解决 当前 云 计算 平台 的 局 限 性 








E, Æ UTD 中 ， 我 们 已 经 











利用 了 








基于 Hadoop 和 Map/ Reduce 技术 中 最 先进 的 硬件 、 软 件 和 数据 组 件 ， 以 及 自 2008 年 以 
来 正在 为 AFRL 开发 云 计 算 安全 的 基础 设施 ( 见 本 章 参考 文献 [AFRL] ) 。 尤 其 是 ， 我 











们 已 经 使 





发 外 ， 我 1 














用 现代 硬件 组 件 〈 例 如 ， 安 全 协 处 理 咒 ) 来 提高 性 
全 功能 、 集 成 的 开源 软件 组 件 ， 以 及 定 
操作 安全 ， 提 供 细 粒度 访问 控制 和 引用 1 
































E 能 ， 因 为 要 包含 附加 的 安 
判 开发 的 软件 组 件 ， 来 支持 对 复杂 数据 的 
监视 器 支持 以 及 提供 强大 的 身份 验证 机 制 
要 建立 有 效 的 云 计算 安全 系统 ， 我 1 


云 查询 


o 


门 还 需要 建立 一 个 关于 这 个 主题 的 强大 的 教育 项 
目 ， 以 便 我 们 让 学 生 在 项 目 上 更 好 地 工作 。 因 此 ， 除 了 在 第 32 章 讨论 的 云 基础 设施 开 
门 还 通过 2011 年 收 到 的 NSF 资助 ， 建 立 了 一 套 强 而 有 力 的 教育 项 目 ， 并 提供 





了 多 项 云 计 算 安 全 课程 。 这 些 课 程 形成 了 一 套 全 面 的 课程 体系 ， 将 为 其 他 机 构 的 云 计 算 














安全 能 力 建设 和 教育 提供 











开发 与 建设 和 云 安全 相关 的 新 课程 ， 同 时 加 强 网 络 安全 、 





应 用 的 数据 挖掘 、 数 字 取 证 等 现 有 的 课程 ， 这 通过 对 每 个 课程 引入 云 让 
来 完成 。 我 们 还 正在 增强 我 们 开发 的 现 有 云 计算 框架 ， 以 便 学 生 可 以 将 这 个 框架 用 

















个 好 的 榜样 。 我 们 的 能 力 建设 项 目 ， 利 用 



































了 我 们 在 UTD 中 的 
云 计 算 安 全 研究 和 JIA 教育 方面 的 广泛 投资 ,开发 了 云 计算 安全 课程 。 特 别 是 ， 我 们 正在 








数据 和 应 用 程序 安全 、 面 向 安全 

















FEE AER dE 




















要 组 件 
于 课程 


项 目 ， 且 为 框架 构建 功能 ， 来 将 其 作为 课程 编程 项 目的 一 部 分 。 我 们 正在 向 与 云 计算 研究 
合作 的 许多 合作 伙伴 提供 我 们 的 课程 。 我 们 的 云 计 算 框架 如 图 33. 1 所 示 。 














风险 /成 本 

















安全 的 应 用 程序 


安全 云 数据 管理 器 








安全 云 存储 管理 器 





安全 虚拟 机 监视 器 

















安全 虚拟 网 络 监视 器 








图 33.1 云 计算 框架 





云 监视 器 
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我 们 的 云 计 算 安 全 教育 项 目 
是 建立 在 2000 年 以 来 UTD 的 信息 
保障 (Information Assurance, IA) pores 
强大 的 教育 项 目 之 上 的 。 由 于 
2004 年 的 教育 和 2008 年 的 研究 比 
较 突出 ,我 们 的 机 构 被 指定 为 
NSA/DHS (国家 安全 局 /国土 安全 
部 ) 教育 中 心 。2010 年 获得 NSF | UTD 信 息 保 障 教育 
SFS (奖学金 ) 奖励 ， 并 正在 培养 
学 生 获 得 TA 硕士 学 位 。 我 们 的 课 
程 包括 系统 安全 和 隐私 、 网 络 安 图 33.2 可 确保 的 云 计 算 
全 、 数 据 / 应 用 程序 安全 、 可 信 的 
Web 服务 /语义 Web、 密 码 学 、 数 据 挖掘 安全 和 数字 取证 。 如 图 33.2 所 示 ， 我 们 对 云 计 
算 安全 的 研究 将 与 我 们 在 TA. 的 教育 项 目 结合 ， 以 建立 UTD 的 云 计算 安全 教育 的 强大 能 
力 。 本 章 的 结构 如 下 。 在 33.2 节 中 ,我们 将 描述 我 们 目前 的 IA 课程 ， 包 括 课程 、 学 位 
和 证 书 。 教 育 项 目 将 在 33. 3 节 中 描述 。 我 们 的 评估 计划 将 在 33.4 节 讨 论 。 本 章 总 结 在 
33.5 节 。 本 章 内 容 如 图 33.3 所 示 。 我 们 的 云 计 算 方 法 的 概述 在 本 章 参 考 文献 
[ HAMLIO] 中 讨论 。 

















保证 云 计算 能 力 




















































































































安全 云 教育 项 目 
言 息 保障 教育 保证 云 计 算 教育 评估 计划 

















图 33.3 安全 云 教 育 项 目 








33.2 UTD 的 信息 保障 教育 


33.2.1 UTD CS 概述 


就 坐落 在 那里 的 高 科技 公司 而 言 ，UTD 所 处 的 位 置 仅 次 于 硅谷 。UTD 计算 机 科学 
起 着 至 关 重要 的 作用 ， 为 高 新 技术 产业 提供 毕业 生 和 实习 生 以 及 协同 支持 产业 研究 人 
员 。UTD CS 在 发 展 TA 教育 和 研究 的 基础 设施 上 做 出 了 巨大 投资 ， 并 明确 “使 国家 安 
全 ”作为 其 6 个 战略 目标 之 一 。 

CS 部 门 也 在 发 展 网 络 安全 的 研究 和 教学 基础 实施 上 做 出 了 重大 投资 。 这 些 包括 
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设立 多 支 师 资 队 伍 ， 聘 请 计算 机 安全 和 IA 领域 的 教员 ; @ 在 信息 安全 教育 (2004) 
和 研究 (2008) 上 努力 建成 NSA 卓越 中 心 ; @@ 成 立 网 络 安全 及 应 急 准 备 研究 所 ， 该 机 
构 设 有 网 络 安 全 研究 及 教育 中 心 ，@ 进 行 重大 投资 来 建立 安全 分 析 和 信息 保障 实验 室 
(SAIAL) ， 以 符合 MIL - STD - 285 标准 ; 名 在 网 络 安全 和 信息 保障 方面 开设 了 一 些 课 
fé; © ( 自 2004 EUR) 提供 研究 生 和 本 科 生 IA 证 书 、 辅 修 IA (2006 EUX) 以 及 
IA (2010 年 以 来 ) 的 硕士 文凭 。 


33.2.2 IA 提供 的 课程 


CS 部 门 在 研究 生 和 本 科 阶 段 提供 完善 的 课程 体系 。 我 们 的 课程 可 以 在 本 章 参 考 文 
HR [CS] 中 找到 。 随 着 新 教师 的 聘用 ，IA 课程 中 的 新 课程 数量 将 大 幅 增 加 。 目 前 CS 
部 门 的 课程 包括 : 

本 科 阶 段 

1. 计算 机 和 网 络 安全 

2. 数据 和 应 用 安全 

3. 数字 取证 

硕士 阶段 

4. 网 络 安全 要 点 (涵盖 10 个 CISSP 模块 ) 

5. 信息 安全 
6. 密码 学 (入 门 级 和 高 级 ) 
7 
8 
9 


















































. 网络 安 全 

. 数据 和 应 用 安全 

. 数据 隐私 

10. 基于 语言 的 安全 

11. 建立 可 信赖 的 语义 Web FI Web 服务 

12. 安全 应 用 的 数据 挖掘 

13. 系统 安全 和 取证 

14. 反 向 工程 和 恶意 软件 分 析 

15. 生物 识别 

16. 关键 的 基础 设施 保护 

17. 安全 的 社交 网 络 

18. 云 计算 安全 

作为 我 们 云 计算 计划 的 一 部 分 ,我们 引入 了 一 些 课 程 ， 包 括 云 数 据 安全 和 安全 的 
WS 和 云 计算 。 这 些 课程 将 在 33.3 节 中 讨论 。IA 部 门 的 教育 和 研究 工作 目前 正在 CS 部 
门 的 5 个 领域 内 进行 ， 如 图 33.4 所 示 。 例 如 ,计算 机 系统 方向 提供 信息 /系统 安全 课 
程 ， 而 理论 方向 提供 密码 学 课程 。 我 们 的 学 生 在 政府 实验 室 以 及 商业 行业 和 国防 建设 中 
都 能 接触 到 IA 的 活动 。 例 如 ， 我 们 数字 取证 课程 的 学 生 ， 在 实地 考察 中 参观 北 得 克 萨 
斯 州 联邦 调查 局 实验 室 ， 并 聆听 Richardson 警察 局 的 客座 讲座 。 除 上 述 CS 课程 外 ， 
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7) 云 计算 开发 与 安全 













智能 系统 





计算 机 系统 


信息 安全 | 
数据 和 应 用 安全 语义 Web 安 全 

基于 安全 的 语言 用 于 恶意 软件 检测 的 数据 挖 所 
多 媒体 系统 安全 生物 识别 技术 

隐私 网 络 安 全 信任 





计算 机 网 络 | 数字 取证 








网 络 安 全 
Web 服 务 和 安全 性 





图 33.4 计算 机 科学 课程 
UTD 的 管理 学 院 (School of Management, SoM) 和 经 济 政策 与 政治 学 院 (Economics, 
Policy and Political Sciences, EPPS) 也 提供 相关 的 管理 课程 、IA 政策 方面 的 课程 ， 包 括 














风险 分 析 。 我 们 正在 与 这 些 学 校 进行 跨 学 科研 究 ， 并 提出 了 一 个 路 学 科 的 网 络 安全 研究 


生 课 程 。 





33.2.3 我 们 关于 IA 的 教育 项 目 


UTD 的 CS 部 门 在 IA 方面 设 有 多 个 课程 ， 包 括 非 CS AEB 





的 IA 辅修 课程 、 本 科 和 研 


究 生 水 平 的 认证 课程 ， 以 及 最 近 在 研究 生 阶 段 开设 的 硕士 课程 。 该 部 门 还 负责 为 DFW 
(达拉斯 WEE, Dallas - Fort Worth) Metroplex 的 专业 人 士 ， 开 设 专业 教育 项 目下 的 

















安全 相关 课程 。 本 科 要 求学 








E 完 成 3 个 本 科 级 IA 课程 ， 包 括 数据 和 应 用 程序 安全 性 、 


计算 机 网 络 安全 和 数字 取证 以 及 预备 知识 。 本 科 证 书 课程 向 CS 学 生 开 放 ， 要 求学 生 完 
在 研究 生 阶 段 ， 认 证 有 多 种 选择 。 自 2003 年 项 目 成 立 以 来 ， 超 过 


成 上 述 3 个 IA 课程 。 
250 名 学 生 已 获得 IA 认证 。CS 部门 在 研究 生 课程 中 提供 
































课程 方向 ， 从 2010 年 秋季 开始 ， 要 求学 生 完 成 一 套 5 个 或 更 多 的 TA 专业 课程 。 
33.2.4 IA 教育 与 研究 的 设备 和 设施 


CS 部 门 设 有 多 个 实验 室 ， 积 极 用 于 IA 教育 和 研究 。SAIAL， 一 个 最 先进 的 实验 室 ， 




















成 立 于 2004 年 ， 是 


房间 均 经 过 单独 测试 以 符合 MIL 一 STD -285 TEMPEST 标准 。 图 33.5 给 
备 的 概况 。 实 验 室 的 一 些 研究 用 途 包 括 : 中 模拟 和 测试 ， 用 于 识别 多 提 





j 于 研究 和 教育 的 主要 设施 。 实 验 室 由 3 个 独立 的 房间 组 成 ， 每 











t 了 一 个 IA 方向 的 课程 组 。 在 IA 


个 


出 了 设施 及 其 设 
供 商 系统 和 网 络 


的 安全 漏洞 。@ 利 用 定制 和 商品 成 品 组 件 (Commercial - Off - The - Shelf, COTS) 工具 
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对 “安全 漏洞 进行 基准 化 和 
EWW”, “Alle” REER H 
动 了 定制 和 COTS 软件 分 析 工 
具 的 使 用 。 另 外 ， 也 可 以 作为 
已 知 和 可 疑 的 漏洞 和 漏洞 评估 
分 析 技 术 的 存储 库 ， 这 些 漏洞 
包括 病毒 、 蠕 虫 。 色 高 级 数字 
取证 技术 的 开发 与 测试 ， 以 及 
进行 取证 。@ 在 网 络 安全 课程 
中 进行 实验 练习 ， 并 尝试 人 侵 
检测 和 对 入 侵 者 跟踪 。 
































第 33 章 ”去 安全 的 教育 项 目 








— 
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Software & Hardware 
Enk Jonsson School of Engineering and Computer Science 





除了 SAIAL， 该 部 门 还 有 
一 个 计算 机 网 络 教学 实验 室 
(Computer Networks Instructional Lab ，CNIL) ， 用 于 我 们 的 网 络 实验 室 课 程 和 我 们 在 网 络 
安全 课程 中 的 实践 实验 。 该 实验 室 最 初 由 Jonsson 学 校 用 得 克 萨 斯 州 的 资金 资助 而 组 建 ， 
包括 网 络 设备 。 最 近 ， 在 国防 部 信息 保障 奖学金 计划 (Information Assurance Scholarship 
Program, IASP) 的 能 力 构建 补助 金 的 帮助 下 ， 我 们 获得 了 相关 设备 ， 主 要 用 于 实际 操 
作 网 络 安全 教育 的 目的 。 该 设备 包括 3 个 具有 多 核 Opteron Kb Has Al 64GB 内 存 的 高 端 
戴尔 R805 服务 器 。 使 用 VMware 虚拟 化 软件 系统 ， 该 设备 能 够 支持 100 个 节点 的 网 络 
环境 ， 以 执行 各 种 各 样 的 网 络 安全 实验 室 练 习 活 动 。 还 有 IA 教授 管理 的 其 他 实验 室 
(例如 数据 安全 和 隐私 实验 室 、 数 据 挖掘 实验 室 、 信 息 保障 实验 室 和 软件 安全 实验 室 ) 。 
此 外 ，UTD 正在 构建 第 32 章 中 讨论 的 云 计 算 安 全 基础 架构 ， 作 为 由 AFOSR 和 NSF 资助 
的 云 安 全 项 目的 一 部 分 。 


图 33.5 UTD 中 的 SAIAL 
























































33.3 云 计 算 教育 项 目的 保障 措施 
33.3.1 能 力 建 设 活 动 组 织 


我 们 的 能 力 建设 项 目 包括 两 个 主要 部 分 : 中 课程 开发 和 实验 室 开发 。 关 于 云 安全 的 
顶级 项 目 课程 是 这 项 工作 的 主要 成 果 之 一 。 云 系统 是 综合 系统 ， 不 仅 包括 关键 计算 资 
源 ， 还 包含 多 个 层次 ， 使 得 它 相 当 复杂 。 云 安全 系统 涉及 安全 的 不 同方 面 ， 从 数据 安全 
到 访问 控制 再 到 防御 社会 工程 、 系 统 级 安全 攻击 、 网 络 安全 攻击 、Rity 技术 (防火墙 系 
统 ， 入 侵 检测 系统 等 )。 我 们 的 课程 强调 了 分 布 式 计算 的 原理 ， 如 何 共同 构建 一 个 安全 
的 云 。 尤 其 是 ， 我 们 使 用 分 布 式 系统 的 已 知 安全 漏洞 中 的 知识 ， 以 及 在 保护 云 计算 系统 
的 背景 下 的 已 知 和 新 的 方法 ， 去 解决 漏洞 问题 。 

我 们 目前 的 云 计算 安全 架构 包括 云 虚拟 机 安全 、 云 数据 管理 安全 、 云 存储 安全 和 云 
监控 安全 等 。 此 外 ， 我 们 正在 广泛 采用 跨 学 科研 究 ， 将 风险 和 成 本 分 析 整 合 到 安全 系统 
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@) 三 计算 开发 与 安全 
a 4 








中 ， 以 讲授 基于 风险 的 云 安全 管理 方面 的 课程 。 我 们 正在 密切 关注 云 取证 的 其 他 考虑 因 
素 ， 并 将 这 些 方面 纳入 我 们 的 课程 。 能 力 建设 项 目的 第 二 部 分 是 ， 建 立 一 个 具有 所 有 必 
要 组 件 的 现实 教学 云 系统 ， 并 开发 必要 的 课程 ， 以 讲授 信息 保障 和 计算 机 安全 的 各 个 方 
面 ， 因 为 它 与 大 规模 云 系 统 的 安全 相关 。 按 照 NSF 和 UTD 政策 和 批准 程序 ， 我 们 的 系 
统 将 面向 类 似 有 教育 目的 的 其 他 机 构 开放 ， 我 们 也 将 在 课程 中 分 享 课程 材料 和 我 们 所 使 
用 的 云 教学 系统 。 我 们 的 课程 将 在 33. 3. 2 节 中 讨论 。 在 33. 3. 3 节 讨 论 面向 我 们 为 学 生 
编程 的 项 目 。33. 3. 4 节 将 讨论 云 计算 教学 设施 。 


33.3.2 课程 开发 活动 


我 们 正在 采取 双管齐下 的 课程 开发 方式 : 第 一 个 是 确保 云 计算 的 课程 ;第 二 个 是 将 
dus SAL CO DM 耸 两 种 方式 的 细节 。 我 
们 的 方法 如 图 33.6 所 示 。 

























































云 存储 安全 
云 服 务 安 全 


虚拟 机 安全 


云 取证 


计算 机 
系统 安全 








数字 取证 
面向 安全 的 
数据 挖 据 
图 33.6 云 计算 保障 课程 
33.3.2.1 顶点 课程 








我 们 的 顶点 课程 基于 以 下 工作 ， 云 计算 研究 与 开发 ; 新 兴 的 云 计 算 保障 研究 、 云 计 

算 原 型 、 云 计算 产品 和 云 计算 标准 ; UTD 正在 为 AFOSR 进行 的 研究 和 实验 : 中 利用 云 

中 的 虚拟 化 和 查询 处 理 安全 实施 存储 管理 安全 ; @ 策 略 管理 的 敌人 式 参 考 监视 器 ; @@ 基 

于 风险 /激励 的 信息 共享 保障 。 云 计算 保障 的 顶点 课程 包括 以 下 组 件 : 中 使 用 硬件 /软件 
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编码 的 安全 管理 程序 ; @ 使 用 VM 的 云 存储 安全 算法 ; (3) 云 查 询 处 理 安全 算法 和 风险 感 
知 访问 控制 ; 多 实现 安全 的 虚拟 网 络 监控 ;名 云 取证 ; @ 云 监控 工具 。 

云 计算 保障 课程 基于 图 33. 1 的 框架 。 该 框架 基于 分 层 SOA 包括 VM 安全 、 云 存储 
安全 、 云 数据 安全 和 虚拟 网 络 监 视 需 层 安 人 全。 交叉 服务 由 策略 层 、 云 监视 占 层 、 风 险 分 
析 层 和 服务 质量 (Quality of Service, QoS) 层 提供 。 顶 点 课程 的 第 一 部 分 重点 介绍 一 般 
云 计算 的 原理 和 组 件 ， 包 括 管理 程序 、 存 储 和 数据 管理 以 及 网 络 组 件 。 此 外 ， 还 提供 了 
各 种 标准 以 及 IBM, Microsoft, Oracle 和 Salesforce. com 的 产品 。 课 程 的 第 二 部 分 包括 云 
计算 保障 的 发 展 以 及 我 们 在 这 一 领域 的 研究 成 果 。 特 别 地 ， 我 们 的 课程 包括 以 下 组 件 。 

1) 安全 管理 程序 : 作为 云 计算 的 推动 者 ， 虚 拟 机 技术 被 广泛 采用 ， 它 通过 管理 程 
序 提 供 。 确 保管 理 程序 的 安全 性 对 于 确保 云 计算 来 说 至 关 重 要 。 我 们 的 课程 包括 安全 管 
理 程序 的 开发 ， 安 全 的 VMware 和 Secure XEN 平台 。 此 外 ,我们 正在 纳入 研究 结果 。 例 
如 ， 我 们 的 研究 发 现 ， 硬 件 / 软 件 方法 的 组 合 对 于 系统 保障 是 有 效 的 。 除 了 传统 的 执行 
平台 ， 我 们 还 在 管理 程序 中 设计 和 原型 化 组 件 。 尤 其 是 ， 我 们 的 课程 包括 虚拟 机 中 的 硬 
件 / 软 件 组 合 解决 方案 的 描述 ， 以 防范 安全 威胁 ， 例 如 ， 键 盘 记录 器 、 缓 冲 区 游 出 和 
人 入侵。 

2) 云 存储 管理 安全 : 我 们 的 课程 包括 与 云 存储 系统 相关 的 各 种 安全 问题 ， 如 Ha- 
doop 框架 的 安全 性 。 此 外 ， 我 们 也 将 研究 结果 纳入 课程 。 例 如 ， 我 们 正在 开发 一 种 存 
储 基础 设施 ， 将 多 个 提供 商 的 资源 整合 在 一 起 ， 形 成 一 个 庞大 的 虚拟 存储 系统 。 当 存储 
节点 承载 来 自 多 个 域 的 数据 时 ， 为 每 个 域 创建 一 个 虚拟 机 以 隔离 信息 ， 进 行 相应 的 数据 
处 理 。 由 于 可 以 动态 创建 数据 并 将 其 分 配给 存储 节点 ， 所 以 有 必要 文 持 安全 的 VM 管理 
服务 ， 如 池 管 理 。 动 态 创 建 VM 的 目的 是 托管 数据 并 支持 每 个 域 的 处 理 。 我 们 利用 线程 
池 概 念 ， 创 建 了 VM 池 技 术 。VM 池 根 据 需 求 和 资源 限制 而 增长 和 缩小 。 我 们 正在 XEN 
All VMware 之 上 实施 虚拟 的 全 局 云 存 储 基础 设施 。 

3) 云 数据 管理 安全 : 我 们 的 课程 包括 与 云 数 据 管理 相关 的 各 种 安全 问题 ， 如 云 查 
询 优 化 和 查询 重 写 。 此 外 ， 我 们 也 在 介绍 研究 结果 。 例 如 ， 我 们 已 经 使 用 基于 XACML 
的 策略 管理 器 ， 并 利用 Hadoop/Map/Reduce 框架 〈 见 第 23 章 ) 为 云 中 的 RDF 数据 开发 
了 查询 处 理 安全 算法 。 我 们 还 设计 了 基于 Hive 框架 的 查询 处 理 安全 算法 ( 见 第 24 章 ) 。 
这 些 成 果 以 及 经 验 正在 被 纳入 我 们 的 课程 。 男 外 ， 还 包括 基于 我 们 对 云 计算 的 风险 访问 
控制 和 查询 处 理 ， 以 及 云 的 QoS 的 研究 成 果 。 例 如 ， 这 部 分 还 讨论 了 云 数 据 处 理 的 不 同 
选择 是 如 何 影响 安全 风险 的 。 此 外 ， 云 的 上 下 文 环 境 也 涵盖 了 基本 的 风险 管理 和 分 析 
工具 。 

4) 云 服 务 安全 : 我 们 的 课程 包括 与 云 服务 有 关 的 各 种 安全 问题 。 尤 其 是 ,我 们 研 
究 了 平台 即 服 务 、 软 件 即 服 务 以 及 基础 设施 即 服 务 中 各 个 方面 的 安全 性 。 讨 论 了 各 种 安 
全 标准 、 产 品 和 原型 。 

5) 云 网 络 安全 管理 : 我 们 的 课程 包括 与 虚拟 网 络 安全 和 管理 相关 的 各 种 问题 。 云 
计算 系统 及 其 托管 应 用 程序 面临 着 基于 网 络 的 安全 威胁 ， 这 种 潜在 的 影响 ， 使 得 云 计算 
系统 成 为 攻击 的 主要 目标 。 这 样 的 系统 安全 需要 多 层次 的 保障 ， 因 为 潜在 的 安全 威胁 可 
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(0). 去 计算 开发 与 安全 


能 来 自 内 部 和 系统 外 部 的 各 种 实体 。 此 外 ， 托 管 的 服务 应 用 程序 面临 的 潜在 安全 攻击 ， 
也 可 能 对 其 他 共同 服务 或 应 用 程序 产生 负面 影响 。 我 们 的 课程 包括 对 云 计算 系统 中 基于 
网 络 的 安全 威胁 的 讨论 ， 还 包括 可 用 的 检测 技术 和 云端 网 络 管理 中 减轻 威胁 的 技术 。 

6) 云 计算 安全 策略 管理 : 我 们 将 云 系 统 中 的 各 种 策略 管理 纳入 到 我 们 的 课程 中 。 
此 外 ， 我 们 也 正在 将 我 们 研究 的 结果 纳入 适用 于 云 的 般 入 式 参 考 监视 器 概念 中 。 例 如 ， 
云 框架 通常 需要 更 复杂 的 策略 语言 ， 来 实现 细 粒 度 的 数据 机 密 性 策略 、 责 任 策略 和 身份 管理 
策略 。 为 了 支持 这 些 策略 ， 自 定义 操作 系统 通常 是 必要 的 。 这 样 的 操作 系统 在 资源 消耗 和 进 
程 加 载 时 间 方 面 都 会 导致 计算 开销 。 自 定义 操作 系统 来 文 持 新 策略 的 需要 ， 在 策略 语言 中 引 
人 灵活 性 ， 都 可 能 导致 系统 的 可 信 计 算 基 的 负荷 大 量 增 加 。 为 了 对 进程 级 云 安全 ， 实 现 更 灵 
活 、 更 轻 量 级 、 更 高 保障 的 保护 ， 我 们 正在 基于 认证 的 侍 人 参考 监视 器 (In lined Reference 
Monitor，IRM) ， 扩 展 传统 的 管理 程序 架构 使 其 具有 更 高 级 别 的 安全 性 。 

7) 云 监控 : 我 们 正在 开发 两 套 云 监控 工具 。 第 一 套 工 具 扩展 了 我 们 为 云 的 恶意 代 
码 检测 和 网 络 流量 分 析 而 开发 的 数据 挖掘 算法 。 该 算法 用 于 挖掘 数据 流 并 检测 新 类 型 的 
恶意 代码 。 第 二 套 工 具 仅 用 于 监视 云端 。 例 如 ， 对 于 Las 类 型 的 云 计 算 应 用 ， 我 们 正 
在 开发 工具 来 监控 基础 物理 资源 的 利用 率 和 负载 分 布 。 这 些 工 具 也 正在 纳入 我 们 的 
课程 。 

8) 云 取 证 : 我 们 的 课程 包含 了 云 取 证 中 的 主题 。 例 如 ， 使 用 云 进 行 取证 分 析 ， 并 
确定 云 中 的 攻击 来 源 。 尤 其 是 ， 包 含有 关 如 何 扩 展 当前 取证 工具 使 其 应 用 到 云 中 ， 以 及 
开发 面向 云 的 审计 和 绩效 工具 的 信息 。 我 们 还 讨论 了 数据 提取 和 分 析 技 术 。 虽 然 我 们 目 
前 对 云 保障 的 研究 不 包括 云 取证 ， 但 是 我 们 正在 与 普 渡 大 学 进行 云 计 算 绩效 研究 。 例 
a, 我们 正在 云 中 每 个 节点 的 每 个 作业 中 收集 绩效 数据 ， 并 进行 分 析 。 这 些 结果 也 纳入 
我 们 的 课程 。 
33.3.2.2 组 件 插入 现 有 课程 

如 图 33.6 所 示 ， 我 们 在 顶点 课程 中 ， 介 绍 的 几 个 组 件 能 很 好 地 适合 我 们 目前 的 TA 
课程 ， 也 指明 了 新 组 件 会 对 当前 课程 有 所 增强 。 网 33.6 还 说 明了 新 组 件 将 如 何 增 强 我 
们 当前 的 IA 课程 ， 并 为 我 们 的 顶点 课程 所 做 出 的 贡献 。 
33.3.2.2.1 计算 机 安全 性 

在 本 课程 中 ， 将 向 学 生 介 绍 信息 安全 方面 的 高 级 概念 ， 特 别 是 强调 操作 系统 的 安全 
性 。 需 要 注意 的 是 ， 我 们 讨论 了 存储 器 管理 、 文 件 系 统管 理 和 进程 间 通 信 的 安全 。 学 生 
还 可 以 编写 病毒 和 蜂 虫 程序 。 我 们 引进 了 一 个 关于 云 系统 安全 性 的 附加 模块 ， 并 提供 虚 
拟 机 和 其 他 管理 程序 安全 的 概述 。 此 外 ， 还 介绍 了 我 们 对 管理 程序 安全 的 研究 结果 。 尤 
其 是 ， 为 了 防御 如 键盘 记录 器 、 绥 冲 区 溢出 和 入 侵 等 安全 威胁 ， 我 们 对 虚拟 机 中 的 便 件 
/软件 组 合 解决 方案 的 描述 。 
33.3.2.2.2 数据 和 应 用 安全 

在 本 课程 中 ， 我 们 介绍 数据 库 中 的 策略 管理 、 多 层次 的 数据 管理 安全 、 推 理 问题 、 
对 象 安全 和 多 媒体 系统 、 信 息 共 享 保障 、 信 息 集 成 安全 、 数 据 仓库 安全 、 基 于 隐私 保护 
的 数据 挖掘 、 社 交 网 络 安全 、 知 识 管理 安全 和 对 数据 库 的 攻击 。 我 们 正在 本 课程 中 加 入 
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基于 云 数 据 安全 管理 (如 查询 优化 和 查询 重 写 安 全 ， 以 及 索引 安全 ) 的 其 他 模块 。 另 
外 ， 我 们 还 介绍 基于 云 存 储 安全 管理 的 模块 ， 如 加 密 数据 存储 和 基于 风险 的 访问 控制 。 
33.3.2.2.3 网络 安全 

本 课程 涵盖 网 络 安全 的 传统 主题 及 与 互联 网 安全 相关 的 更 实际 的 主题 及 其 应 用 。 该 
课程 还 包括 一 个 重要 的 实践 训练 组 件 ， 学 生 们 在 几 个 实际 的 互联 网 安全 主题 上 进行 练 
习 ， 包 括 密码 破解 、 漏 洞 扫 描 和 开发 。 我 们 也 正 将 与 云 中 的 安全 挑战 相关 的 其 他 问题 ， 
和 解决 这 些 问题 的 方案 纳入 到 课程 中 。 
33.3.2.2.4 数字 取证 

目前 这 是 本 科 课 程 ， 我 们 计划 在 不 久 的 将 来 ， 推 出 研究 生 课程 。 对 于 高 年 级 本 科 课 
程 ， 学 生 学 习 取 证 数据 恢复 、 取 证 数据 分 析 、 事 件 重建 和 文件 系统 取证 。 学 生还 使 用 
Encase 工具 进行 取证 分 析 。 我 们 介绍 一 个 关于 云 取 证 的 新 知识 模块 。 尤 其 是 ， 我 们 讨论 
如 何 使 用 云 进行 取证 分 析 。 我 们 还 讨论 了 由 于 云 而 可 能 发 生 的 新 攻击 ， 并 探索 扩展 当前 
取证 工具 在 云 中 运行 的 方法 。 
33.3.2.2.5 面向 安全 应 用 的 数据 挖掘 

这 是 博士 课程 。 我 们 将 向 学 生 介 绍 各 种 数据 挖掘 技术 ， 然 后 探索 人 侵 检 测 、 亚 意 代 
人 码 检 测 、 缓 冲 区 洪 出 检测 和 僵尸 网 络 检测 等 网 络 安 全 应 用 。 学 生 为 安全 应 用 构建 数据 挖 
掘 工具 。 我 们 介绍 这 个 新 知识 模块 ， 讨 论 如 何 将 云 计算 用 于 可 扩展 的 数据 挖掘 。 此 外 ， 
我 们 还 研究 了 数据 挖掘 是 如 何 用 于 云 计算 的 安全 问题 中 ， 如 审计 和 绩效 。 最 近 ， 我 们 推 
出 了 一 个 新 的 大 数据 分 析 课 程 ， 与 面向 安全 应 用 的 数据 挖掘 课程 倒 加 在 一 起 。 
33.3.2.2.6 构建 安全 的 语义 Web 服务 

这 也 是 博士 阶段 课程 ， 我 们 将 向 学 生 介绍 语义 Web 和 WS 技术 ， 以 及 这 些 技 术 的 安 
全 问题 。 尤 其 是 ， 对 语义 Web 进行 策略 表示 以 及 对 语义 Web 安全 技术 进行 了 讨论 ， 还 
提供 了 各 种 WS 的 安全 标准 。 本 课程 中 介绍 的 一 个 新 知识 模块 ， 将 讨论 平台 即 服务 和 基 
础 设施 即 服 务 的 安全 性 。 男 外 ,我 们 讨论 了 云 中 语义 Web 数据 安全 人 处理 的 研究 结果 
(如 RDF 数据 ) ， 还 讨论 了 如 IBM, Microsoft 和 Oracle 等 公司 实施 的 各 种 云 安全 服务 。 
33.3.2.2.7 密码 学 

在 这 个 课程 中 ， 我 们 将 向 学 生 介 绍 各 种 加 密 协议 技术 。 此 外 ， 还 包括 SMC 等 主题 。 
我 们 正在 添加 使 用 云 运行 密集 型 加 密 算法 的 知识 模块 。 另 外 ， 还 讨论 了 数据 存储 的 安全 
问题 。 
33.3.2.2.8 语言 安全 

在 这 门 课程 中 ， 我 们 将 向 学 生 介 绍 语言 安全 概念 ， 包 括 程序 验证 方法 。 本 课程 将 纳 
入 我 们 的 云 计算 策略 管理 和 骨 入 式 参 考 监视 器 模块 。 


33.3.3 课程 编程 项 目 


作为 课程 的 一 部 分 在 4. 2 节 中 已 经 描述 ， 学 生 可 以 进行 一 些 编程 项 目 ， 以 提高 他 们 
在 保证 云 计 算 方面 的 技能 ， 并 为 我 们 的 云 计算 平台 做 出 贡献 。 在 我 们 正在 进行 的 研究 的 
基础 上 ， 以 下 是 我 们 学 生 的 一 些 示 例 编 程 项 目 。 
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33.3.3.1 为 了 存储 安全 的 细 粒 度 访问 控制 

目前 的 Hadoop 实现 强制 执行 粗 粒 度 的 访问 控制 策略 ， 实 际 上 它 把 所 有 系统 资源 当 
做 一 个 组 ， 进 行 允 许 或 拒绝 ， 不 区 分 这 些 资 源 。 当 数据 、 查 询 和 相应 的 系统 资源 与 安全 
性 相关 时 ， 以 及 并 不 是 所 有 用 户 和 进程 都 可 以 完全 信任 时 ， 这 种 粗 粒度 的 安全 性 就 不 够 
了 。 目 前 的 工作 是 通过 实施 Hadoop 的 标准 访问 控制 列表 ， 来 实现 对 某 些 系统 资源 (如 
文件 ) 的 限制 访问 。 然 而 ， 这 种 方法 的 局 限 性 ， 是 要 执行 的 安全 策略 已 经 被 内 舱 到 OS 
中 ， 因 此 在 不 修改 操作 系统 的 情况 下 不 能 轻易 地 进行 更 改 。 因 此 ， 可 以 设计 一 个 针对 学 
生 的 课程 项 目 ， 那 就 是 在 Hadoop 上 构建 灵活 和 细 粒 度 的 访问 控制 策略 ， 如 RBAC ( 基 
于 角色 的 访问 控制 ) 、UCON (使 用 控制 ) 和 ABAC (基于 属性 的 访问 控制 ) 。 
33.3.3.2 灵活 认证 

目前 测试 版 本 的 Hadoop 支持 使 用 Kerberos 和 令 牌 进行 身份 验证 。 在 Kerberos 协议 
之 上 ， 为 了 信息 保障 任务 ， 可 能 需要 添加 简单 的 认证 协议 ， 用 来 与 安全 协 处 理 器 进行 认 
证 。 第 二 个 编程 项 目 是 让 学 生 去 添加 一 个 简单 的 公 钥 ， 使 得 用 户 可 以 独立 地 使 用 安全 协 
处 理 器 进行 验证 ， 以 检索 用 于 加 密 人 敏感 数据 的 密 钥 。 
33.3.3.3 虚拟 机 安全 管理 

我 们 已 经 检查 了 虚拟 机 和 其 他 虚拟 机 器 ， 并 为 我 们 的 云 实现 并 构建 了 XEN ， 因 为 
它 是 开放 源码 的 ， 并 且 拥 有 优秀 的 文档 和 用 户 手册 。XEN 还 支持 非 Linux 系统 。 此 外 ， 
XEN 具有 一 些 安全 功能 ， 可 用 于 构建 额外 的 安全 性 。 第 三 个 编程 项 目 就 是 为 学 生 在 
XEN 中 构建 访问 控制 功能 。 
33.3.3.4 云 的 安全 协 处 理 器 (SCP) 

根本 上 来 说 ，SCP 是 具备 有 限 通 用 计算 能 力 的 防 算 改 硬件 。 安 装 在 服务 器 上 时 ， 它 
能 够 执行 对 服务 器 完全 隐藏 的 本 地 计算 。 如 果 检 测 到 算 改 ， 则 SCP 清除 内 部 存储 器 。 
由 于 SCP 是 防 算 改 的 ， 可 能 会 诱 使 在 SCP 上 运行 整个 敏感 数据 存储 服务 器 。 将 整个 数 
据 存储 功能 推 人 SCP 是 不 可 行 的 ， 因 为 : 中 它 是 防 算 改 外 壳 。SCP 通常 只 有 有 限 的 存储 
空间 (只 有 几 兆 字 节 的 随机 存 取 存 储 器 和 几 千 字 节 的 非 易 失 性 存储 器 ) 和 计算 能 
性 能 会 随 着 时 间 的 推移 而 改善 ， 但 是 散热 /电力 使 用 等 问题 (必须 进行 控制 以 避免 公开 
处 理 ) ， 将 导致 一 般 目 的 和 安全 计算 之 间 存 在 差距 。@) 另 一 个 问题 是 ， 在 SCP 上 运行 的 
软件 必须 被 完全 信任 和 验证 。 这 种 安全 要 求 意 味 着 在 SCP 上 运行 的 软件 应 尽 可 能 简单 。 
因此 ， 学 生 的 第 四 个 编程 项 目 是 使 用 SCP 为 云 构建 安全 存储 。 
33.3.3.5 恶意 代码 检测 的 可 扩展 技术 

我 们 正在 开发 高 效 和 可 扩展 的 特征 提取 技术 ， 并 将 这 些 技术 应 用 于 真正 的 良性 和 恶 
意 可 执行 文件 的 大 型 语料库 中 。 该 特征 提取 和 选择 过 程 既 是 计算 的 又 是 存储 密集 型 的 。 
例如 ， 在 我 们 以 前 的 工作 中 ， 我们 从 只 有 3500 个 可 执行 文件 的 语料库 中 ， 提 取 了 大 约 
40 {Zn - grams (n 个 连续 的 十 六 进 制 数字 )。 特 征 提 取 过 程 需要 磁盘 的 VO 操作 ， 因 为 
所 有 功能 都 不 能 存储 在 主 内 存 中 。 对 于 具有 四 核 处 理 器 和 12GB 内 存 的 机 器 ， 它 花费 了 
大 约 2 小 时 和 千 兆 字 节 的 磁盘 空间 。 需 要 注意 的 是 ， 这 是 静态 数据 集 的 资源 需求 。 如 果 
数据 集 是 动态 的 ， 像 新 数据 不 断 到 达 的 数据 流 ， 并 且 该 特征 提取 和 选择 将 被 重复 执行 以 
418 















































































































































































































































































































































$332 BRAGRKEME 








发 现 较 新 的 特征 。 这 个 过 程 将 存在 一 个 主要 瓶颈 。 例 如 ， 我 们 一 起 考虑 了 105388 个 可 
执行 文件 。 因 此 ， 对 于 这 个 巨大 的 数据 集 ， 我 们 以 前 的 方法 ， 在 有 限 的 存储 和 时 间 内 可 
能 不 会 很 好 地 扩展 。 因 此 ， 我 们 正在 使 用 我 们 的 云 计算 框架 开发 可 扩展 解决 方案 。 我 们 
可 以 为 学 生 设 计 编 程 项 目 ， 以 检查 我 们 算法 中 的 可 扩展 性 。 
33.3.4 云 计 算 教学 设施 

我 们 使 用 各 种 开源 工具 让 学 生 熟 悉 基 础 云 计算 概念 。 对 于 云 中 的 大 规模 数据 分 析 ， 
我 们 专注 于 研究 云 基础 设施 中 由 Hadoop 集群 组 成 的 一 部 分 。 学 生 使 用 此 集群 进行 编程 
项 目 。 此 外 ， 学 生 们 可 以 使 用 Hadoop 实践 上 一 节 中 描述 过 的 各 种 训练 实验 。 例 如 ， 对 
于 数据 和 应 用 程序 安全 ， 学 生 可 以 使 用 这 种 基础 设施 进行 编程 分 配 ， 以 保障 信息 共享 。 
学 生 分 为 两 组 ， 每 个 团队 都 是 联盟 合作 伙伴 ， 并 将 为 其 他 团队 设计 策略 ， 也 将 数据 存储 
在 云 中 。 例如，A 组 为 B 组 制定 了 一 套 策 略 ， 另 外 针对 C 组 制定 了 一 套 不 同 的 策略 。 当 
某 个 组 (例如,，B 或 C) 想 要 访问 由 A 组 放置 的 数据 时 ， 将 针对 数据 执行 适当 的 策略 。 
除 结构 化 数据 外 ， 学 生还 可 以 尝试 使 用 非 结 构 化 数据 进行 实验 (例如 , 文本、 图 像 ) 。 

除了 上 述 云 ， 我 们 计划 安装 Apache VCL (虚拟 计算 实验 室 ) 作为 我 们 实验 室 环境 
的 一 部 分 。 有 关 VCL 的 信息 可 以 在 本 章 参 考 文献 [VCL] 中 找到 。 基 本 上 ，YVCL 是 一 
个 开源 系统 ， 用 于 动态 地 为 最 终 用 户 提供 专门 的 计算 机 环境 的 远程 访问 。 这 样 的 系统 将 
有 助 于 向 学 生 介绍 基础 设施 作为 云 应 用 的 服务 类 型 。 使 用 这 种 云 计算 教学 设施 ， 我 们 将 
设计 各 种 动手 实验 和 作业 ， 学 生 可 以 将 他 们 的 知识 应 用 于 实际 问题 。 我 们 正在 创建 一 个 
完全 用 于 教育 目的 的 第 二 个 云集 群 。 通 过 此 集群 ， 作 为 顶点 课程 的 一 部 分 ， 我 们 将 进行 
云端 渗透 和 云 取证 演习 ， 还 可 以 配套 进行 数字 取证 、 网 络 、 系 统 和 数据 安全 课程 教学 。 
这 个 云 将 仅 用 于 教育 目的 。 在 项 目 进 行 期 间 ， 我 们 将 开发 详细 的 教学 材料 ， 其 中 将 包括 
讲义 和 实验 室 练习 。 我 们 将 在 项 目 网 站 上 进行 设计 和 存放 。 此 外 ,我 们 将 开发 用 户 
手册 。 


33.4 评估 计划 


我 们 课程 和 实验 的 最 好 评估 者 是 我 们 的 学 生 。 我 们 正在 从 学 生 那 里 获得 详细 的 评 
佑 ， 并 与 他 们 讨论 如 何 改 善 课程 。 我 们 还 从 合作 伙伴 那里 获得 资助 ， 并 利用 这 些 资助 来 
改进 课程 。 我 们 的 评估 将 纳入 我 们 为 NSF 准备 的 中 期 和 最 终 报告 。 在 我 们 获得 资助 的 
基础 上 ， 我 们 还 将 为 我 们 的 云 制作 用 户 手册 ， 以 便 来 自 各 地 的 学 生 可 以 登录 我 们 的 系 
统 ， 并 学 习 如 何 使 用 我 们 的 云 进 行 教育 和 实验 。 

我 们 提出 项 目 评估 的 三 个 大 的 阶段 : 项 目 实施 效果 ; 实现 我 们 的 目标 和 宗旨 ; 项 目 
的 全 面 影 响 。 第 一 ， 评 估 过 程 由 两 个 主要 部 分 组 成 。 将 进行 形式 性 评 佑 ， 以 监测 涉及 的 
活动 项 目 ， 来 实施 进一步 完善 和 持续 改进 。 这 个 评估 阶段 的 目的 是 记录 成 功 的 经 验 和 中 
到 的 挑战 ， 以 及 从 实施 阶段 获得 的 教训 ， 并 监测 项 目 活 动 状况 。 第 二 ， 为 了 实现 我 们 的 
项 目 目 标 和 宗旨 ， 将 进行 总 结 性 评 佑 ， 评 估 内 容 包 括 我 们 的 项 目 对 学 生 学 习 产 生 的 影响 
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) 去 计算 开发 与 安全 





和 云 计算 教育 的 改进 。 





33.5 总结 和 展望 





在 本 章 中 ,我 们 已 经 建立 了 第 32 章 中 讨论 的 云 安 全 基础 设施 ， 并 介绍 了 我 们 的 云 
计算 教育 战略 。 我 们 讨论 的 一 些 课程 已 经 得 到 提供 ， 而 另外 一 些 课程 正在 进行 研究 制订 
中 。 我 们 正在 利用 第 32 章 讨 论 的 基础 设施 进行 课程 编程 项 目 。 我 们 的 许多 学 生 也 已 成 
为 Hadoop/Map Reduce 框架 方面 的 编程 专家 。 

现在 ,我 们 正在 为 云 中 的 大 数据 分 析 提 供 新 课程 ， 并 将 涉及 在 云 中 实施 各 种 数据 挖 
掘 算 法。 我 们 的 云 计算 安全 和 大 数据 分 析 课 程 之 间 存 在 一 些 重 关 。 我 们 在 云 计算 安全 方 
面 的 研究 和 教育 在 本 章 参考 文献 [CLOUD] 中 给 出 。 

我 们 将 继续 加 强 云 计 算 架 构 以 及 改善 我 们 提供 的 课程 。 例 如 ， 在 2013 年 春季 学 期 
(2013 年 1 月 至 5 H) 期间， 我 们 提供 了 一 个 关于 分 析 社 交 网 络 及 其 安全 的 新 课程 。 本 
课程 还 将 利用 我 们 的 云 基础 设施 进行 编程 项 目 。 具 体 来 说 ， 作 为 课程 项 目的 一 部 分 ， 我 
们 在 第 14 章 讨 论 的 SNODOC 的 工作 中 扩展 了 安全 功能 。 也 就 是 说 ， 我 们 将 开发 挖掘 各 
种 社交 网 络 数据 (如 Twitter, YouTube 等 ) 的 技术 ， 执 行 安全 和 隐私 策略 ， 并 实施 云 中 
的 技术 (例如 ,使 用 Storm) 。 我 们 认为 ， 随 着 对 大 数据 分 析 的 需求 ， 增 加 了 对 更 好 的 
云 基 础 架构 的 需求 ， 以 及 更 多 关于 云 计算 保障 的 课程 也 会 增加 。 在 开发 关于 云 的 基础 设 
施 以 及 课程 方面 ， 安 全 性 将 是 一 个 重要 因素 。 
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FUE 云 安 全 的 研究 计划 


34.1 概述 





正如 我 们 在 本 书 中 讨论 的 那样 ， 云 计算 受到 了 极 大 的 关注 ， 在 保护 云端 方面 需要 做 
很 多 工作 。 

因此 ， 我 们 开始 了 在 2008 年 至 2014 年 期 间 由 AFOSR 资助 的 合作 研究 项 目 ， 其 中 
包括 对 云 安全 问题 的 调查 。 虽 然 我 们 的 初步 调查 是 网 格 安全 ， 最 后 还 是 转移 到 了 云 安 
人 全。 最初 ,与 这 个 项 目 合作 的 两 所 大 学 分 别 是 得 克 萨 斯 大 学 达拉斯 分 校 和 普 渡 大 学 。 后 
来 ,我 们 与 其 他 大 学 合作 ， 如 加 利 福 尼 亚 大 学 欧文 分 校 、 英 国 皇 家 学 院 、 伦 敦 大 学 、 意 
大 利 英 苏 布 里 亚 大 学 。 我 们 还 与 ADB 咨询 公司 在 实体 提取 等 领域 进行 合作 ， 最 终 实现 
云 中 的 算法 。 该 项 目 是 研究 云 安 全 问题 的 第 一 个 全 面 的 需要 多 组 织 协作 的 工作 ， 包 括 存 
储 、 信 息 管 理 和 敏感 数据 协作 工具 。 该 项 目 还 着 重 考虑 了 国防 部 和 国家 安全 局 的 需求 ， 
这 些 机 构 一 直 在 GIG (全 球 信 息 网 格 Global Information Grid) 上 广泛 开展 工作 ， 出 现 
了 许多 具有 挑战 性 的 安全 问题 。 在 本 章 中 ， 我 们 将 介绍 我 们 对 这 个 项 目 关于 云 安 全 所 做 
的 一 些 进展 ， 以 及 我 们 未 来 的 计划 。 

应 该 指出 的 是 我 们 在 本 书 中 讨论 的 许多 实验 系统 都 是 由 这 个 项 目 发 展 而 来 。 在 这 个 
部 分 ， 不 仅 讨论 我 们 在 得 州 大 学 达拉斯 分 校 里 的 研究 成 果 ， 其 中 有 些 已 经 在 前 儿 章 讨论 
过 ， 而 且 我 们 也 讨论 我 们 的 大 学 合作 伙伴 所 做 的 贡献 。 本 章 的 结构 如 下 。 研 究 成 果 包括 
开发 安全 的 查询 处 理 器 、 混 合 数据 存储 方案 和 云 隐 私 ， 并 在 34. 2 节 中 讨论 使 用 云 进 行 
恶意 软件 分 析 。 我 们 的 未 来 计划 在 34. 3 节 中 讨论 。 
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34.2 ”研究 贡献 


34.2.1 简介 


我 们 在 云 安 全 中 的 许多 研究 贡献 ， 已 经 在 本 书 的 第 六 部 分 和 第 七 部 分 进行 了 讨论 。 
我 们 总 结 一 些 相关 研究 ， 并 在 本 章 中 讨论 我 们 的 一 些 其 他 研究 。 我 们 还 将 讨论 普 渡 大 学 
根据 我 们 在 得 克 萨 斯 大 学 达拉斯 分 校 领导 的 合作 研究 项 目 进 行 的 研究 。 

我 们 在 3 个 节 次 讨论 该 研究 。 在 34. 2. 2 WP, 我们 讨论 云 数据 安全 和 信息 管理 的 
研究 。 我 们 将 在 本 节 中 列 出 第 六 部 分 中 讨论 的 具体 研究 原型 。 在 34. 2. 3 节 中 ,我 们 讨 
论 云 安全 应 用 的 研究 。 也 就 是 说 ， 这 里 讨论 的 系统 说 明 云 提供 安全 服务 。 这 些 系统 也 在 
第 七 部 分 中 讨论 过 。 在 34. 2.4 节 中 ,我 们 将 讨论 云 的 各 种 安全 模型 。 这 些 模 型 包括 信 
息 流 模 型 、 访 问 控制 模型 和 绩效 模型 。 在 34. 2.5 W, 我们 将 讨论 我 们 正在 开展 的 一 些 
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1 云 计 算 开 发 与 安全 











研究 ， 旨 在 开发 安全 的 社交 网 络 ， 最 终 实现 云 中 的 技术 。 尽 管 34.2.2 和 34.2.3 节 中 讨 
论 的 大 部 分 研究 ， 都 是 在 得 州 大 学 达拉斯 分 校 里 进行 ， 但 34. 2. 4 节 提 到 的 研究 是 在 普 
渡 大 学 进行 的 。ADB 咨询 公司 进行 的 34. 2.5 节 讨 论 的 研究 ， 是 得 克 萨 斯 大 学 达拉斯 分 
校 领导 的 合作 研究 项 目的 一 部 分 ， 该 节 仅 提供 研究 的 样本 参考 。 图 34. 1 所 示 为 研究 包 
含 的 内 容 。 



































云 数 据 安全 和 云 安全 基于 云 的 社 
信息 管理 应 用 程序 交 网 络 安 全 











图 34.1 协作 研究 
34.2.2 ” 云 数据 安全 和 信息 管理 


34.2.2.1 云 中 的 数据 密集 查询 处 理 安全 

语义 Web 是 通过 开发 各 种 技术 来 增加 人 类 推理 的 新 兴 领 域 。 这 些 技术 已 经 被 W3C 
标准 化 了 。 一 个 这 样 的 标准 是 RDF。 随 着 语义 Web 技术 的 爆发 ， 大 型 RDF 图 是 常见 的 。 
这 对 RDF 图 的 存储 和 检索 提出 了 重大 挑战 。 目 前 的 框架 并 不 适用 于 大 型 RDF 图 ， 因 此 
不 能 解决 这 些 问题 。 这 里 ， 我 们 描述 了 一 个 使 用 Hadoop 构建 的 框架 ， 通 过 利用 云 计算 
模式 来 存储 和 检索 大 量 的 RDF 三 元 组 。 我 们 描述 了 在 Hadoop DFS 中 存储 RDF 数据 的 方 
案 。 可 能 需要 多 个 Hadoop 作业 以 回答 查询 ， 因 为 查询 中 的 三 元 组 模式 不 能 参与 Hadoop 
作业 中 的 多 个 连接 。 为 了 完成 这 个 工作 ， 我 们 提出 了 一 种 产生 近似 最 优 查询 计划 的 算 
法 ， 它 基于 贪 梦 方法 来 回答 SPARQL 协议 和 RDF 查询 语言 (SPARQL) 查询 。 我 们 使 用 
Hadoop 的 Map/ Reduce 框架 来 回答 这 些 查 询 。 结 果 表 明 ， 可 以 在 使 用 廉价 商品 类 硬件 构 
建 的 Hadoop 集群 中 存储 大 型 RDF 图 。 此 外 ， 我 们 展示 了 这 个 框架 是 可 扩展 和 高 效 的 ， 
也 可 以 处 理 大 量 的 RDF 数据 ， 这 与 传统 方法 不 同 。 我 们 正在 实施 基于 XACML 的 策略 管 
理 ， 并 将 其 与 我 们 的 查询 处 理 策 略 进行 整合 。 我 们 在 第 22 章 讨 论 了 系统 ， 详 细 信 息 
( 见 本 章 参 考 文献 [ KHAL10])。 

除了 使 用 语义 Web 数据 进行 查询 处 理 安全 之 外 ， 我 们 还 开发 了 用 于 关系 数据 的 查 
询 处 理 安全 的 原型 系统 。 在 该 系统 中 ， 在 XACML 中 指定 策略 ， 关 系数 据 由 Hive 管理 。 
我 们 在 第 22 章 讨论 了 这 个 系统 ( 见 本 章 参 考 文献 [THUR10] ) 。 
34.2.2.2 混合 云 中 的 数据 处 理 安全 

云 计 算 使 得 用 户 能 够 在 需要 时 ， 将 精确 地 选择 计算 服务 成 为 可 能 。 然 而 ， 用 户 需要 
根据 如 所 需 信息 隐私 级 别 、 监 管 问题 和 本 地 计算 能 力 等 因素 ,来 做 出 关于 是 否 使 用 云 服 
务 的 决定 。 鉴 于 这 些 问题 ， 对 于 某 些 用 户 来 说 ， 采 用 混合 云 (公有 和 私有 ) 方法 ,而 
不 是 仅 依靠 CSP 可 能 是 更 好 的 选择 。 这 样 的 混合 解决 方案 ， 使 得 某 些 关键 功能 或 关键 
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第 34 章 云 安 全 的 研究 计划 《5) 


组 织 的 任务 能 够 在 用 户 站 点 本 地 执行 ， 同时 允许 将 较 不 重要 的 任务 外 包 给 公有 云 。 此 
外 ， 这 还 提高 了 否 叶 量 ， 同 时 降低 了 高 级 数据 安全 性 的 运营 成 本 。 我 们 可 以 预见 在 采用 
混合 云 方法 之 前 必须 克服 的 3 个 挑战 。 

1) 数据 设计 : 如 何 分 割 混合 云 中 的 关系 ?此 问题 的 解决 方案 必须 考虑 到 关系 中 的 
敏感 性 以 及 用 户 的 工作 量 。 此 外 ， 解 决 方案 必须 考虑 到 在 混合 云 中 存储 关系 的 资金 成 
本 ,以 及 将 敏感 信息 发 布 给 公共 CSP 所 带 来 的 风险 。 此 外 ， 解 决 方案 还 必须 能 够 适应 
用 户 不 断 变 化 的 数据 和 工作 负载 要 求 。 在 我 们 的 方法 中 ， 数 据 设 计 问 题 被 形式 化 为 多 目 
标 优化 问题 ， 其 中 每 个 目标 捕获 上 述 子 问题 中 的 一 个 。 此 外 ,我们 已 经 表明 这 个 问题 是 
NP 完全 问题 ， 因 此 我 们 对 这 个 问题 提供 了 动态 规划 和 把 山 算法 的 解决 方法 。 

2) 数据 安全 : 如 何 通 过 加 密 保护 公有 云 中 的 用 户 数 据 ， 同 时 启用 对 此 加 密 数 据 的 
查询 处 理 ? 这 个 问题 的 解决 方案 ， 必 须 确 保 服务 提供 商 和 入 侵 服务 提供 商 的 黑客 都 不 会 
从 存储 的 数据 中 提取 任何 有 意义 的 信息 。 可 以 通过 加 密 存 储 的 数据 来 实现 数据 安全 性 。 
然而 ， 加 密 提 出 了 一 组 新 的 挑战 ， 例 如 ， 加 密 的 粒度 ， 以 及 对 加 密 数 据 进行 查询 处 理 。 
在 我 们 的 方法 中 ,使 用 “ 桶 化 ”技术 来 提供 数据 安全 性 。 这 种 技术 不 会 将 任何 数据 汇 
露 给 服务 提供 商 或 黑客 。 此 外 ， 这 种 技术 使 我 们 能 够 有 效 地 查询 加 密 的 数据 。 这 使 我 们 
能 够 将 大 量 的 查询 处 理工 作 推 送 到 公共 CSP。 

3) 查询 处 理 : 用 户 如 何 透明 地 对 混合 云 发 出 查询 请 求 ” 如 何 对 加 密 和 未 加 密 的 数 
据 有 效 执行 查询 ” 解决 这 些 问题 ， 首 先 必须 能 够 估算 通过 两 个 未 加 密 和 加 密 的 数据 执行 
查询 的 成 本 ， 然 后 这 个 成 本 估算 可 以 用 于 优化 混合 云 上 的 查询 执行 。 

在 我 们 的 方法 中 ， 我 们 开发 了 一 套 查 询 重 写 规 则 ， 用 于 将 给 定 的 查询 拆 分 成 其 子 查 
询 ， 然 后 可 以 在 公有 云 和 私有 云 上 执行 。 我 们 使 用 线性 成 本 估计 模型 来 近似 给 定 查询 的 
成 本 。 我 们 模型 的 目标 是 计算 查询 的 总 响应 时 间 。 该 模型 考虑 到 实际 处 理 时 间 ， 以 及 将 
结果 从 公有 云 传输 到 私有 云 的 时 间 。 该 模型 利用 查询 重 写 规 则 ， 将 查询 拆 分 为 公有 云 和 
私有 云 中 的 子 查 询 。 我 们 的 方法 中 的 查询 优化 是 通过 估计 几 个 候选 计划 的 成 本 ， 然 后 选 
择 具 有 最 低 响 应 时 间 的 计划 来 完成 。 

我 们 已 经 将 上 述 解决 方案 纳入 基于 Hadoop 和 基于 Hive 的 云 计算 基础 架构 的 附加 工 
具 中 ， 这 是 我 们 与 加 州 大 学 尔 湾 分 校 联 合 开 展 的 项 目 ， 我们 的 研究 细节 在 本 章 参 考 文献 
[OKTA12] 中 讨论 。 
34.2.2.3 云 中 的 信息 集成 安全 

因为 其 成 本 效益 和 易 维护 等 因素 ， 像 Amazon S3 这 样 的 云 计算 服务 越 来 越 受 欢迎 。 
我 们 已 经 评估 了 使 用 S3 存储 服务 来 存储 语义 Web 数据 的 可 行 性 。 智 慧 社 区 的 黑 皮 书 使 
用 几 种 语义 数据 来 产生 搜索 结果 。 在 我 们 的 方法 中 ， 以 安全 的 方式 存储 了 Amazon S3 上 
的 一 本 BlackBerry 数据 源 ， 从 而 在 基于 语义 Web 的 框架 中 利用 了 云 计 算 服务 。 在 将 其 存 
储 在 Amazon S3 之 前 ， 我 们 使 用 高 级 加 密 标 准 (Advanced Encryption Standard, AES) 对 
数据 源 进行 了 加 密 。 此 外 ， 我 们 不 会 将 原始 密 钥 存 储 在 系统 的 任何 位 置 。 相 反 ， 密 钥 由 
两 个 单独 的 组 件 生成 ， 每 个 都 称 为 “ 密 钥 服 务 器 ”。 然 后 ， 生 成 的 密 钥 用 于 加 密 数 据 。 
我 们 基本 上 展示 了 如 何 将 信息 安全 地 集成 到 Amazon 中 的 WS 上。 第 24 章 提 供 了 这 项 工 
作 的 细节 。 更 多 信息 也 可 以 在 本 章 参考 文献 [PARI12] 中 找到 。 
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34.2.2.4 云 中 社交 网 络 的 安全 

我 们 开发 了 社交 智能 应 用 程序 ， 通 过 从 他 的 社交 图 形 和 他 发 布 的 消息 挖掘 信息 ,来 
识别 用 户 在 社交 网 站 上 的 位 置 。 我 们 的 系统 不 仅 可 以 识别 用 户 的 城市 级 住宅 位 置 ， 而 且 
可 进一步 确定 用 户 在 他 的 消息 中 可 能 到 访 过 或 已 经 谈 到 的 特定 场所 或 兴趣 点 。 我 们 已 经 
进行 了 广泛 的 实验 ， 来 证 明 该 算法 在 准确 性 和 运行 时 间 方 面 的 功效 。 该 算法 胜 过 所 有 现 
有 的 位 置 提取 方法 。 为 了 显示 算法 在 安全 分 析 中 的 适用 性 ， 我 们 开发 了 一 个 强大 的 工 
具 ， 人 允许 分 析 人 员 识 别 任何 Twitter 用 户 和 他 朋友 的 位 置 ， 并 在 上 下 文中 绑 定 ， 以 便 揭 
示 世 界 各 地 的 不 同 用 户 间 正 在 谈论 的 内 容 。 该 工具 提供 了 一 个 直观 的 图 形 接口 分 析 器 ， 
可 以 使 用 它 来 可 视 化 用 户 和 他 朋友 访问 的 地 点 ( 由 算法 确定 )， 来 识别 和 监视 潜在 的 安 
全 威胁 。 暴 动 或 骚乱 等 政治 集会 往往 都 在 像 Twitter 这 样 的 社交 网 站 上 进行 组 织 ， 在 目 
前 这 样 的 世界 性 场景 中 ,我 们 的 系统 被 证 明 是 检测 、 识 别 和 跟踪 恶意 用 户 的 好 工具 。 

更 多 关注 的 重点 是 开发 信息 集成 以 及 我 们 系统 的 推理 组 件 。 特 别 是， 来 自 多 个 社交 
网 络 的 信息 被 安全 地 整合 ， 并 进行 分 析 和 推理 以 检测 未 来 的 事件 。 

我 们 正在 为 系统 安全 和 隐私 投入 更 多 精力 ， 并 在 云 中 实施 系统 。 我 们 的 工作 细节 在 
本 章 参考 文献 [ABROO9] 中 给 出 。 


34.2.3 基于 云 的 安全 应 用 


34.2.3.1 面向 演进 数据 流 的 基于 云 的 恶意 软件 检测 

对 入 侵 检 测 的 数据 流 分 类 而 言 至 少 有 3 个 主要 难题 。 第 一 ， 这 些 数据 流通 常 是 无 限 
长 的 ， 导 致 传统 的 多 遍 学 习 算 法 不 适用 。 第 二 ， 当 攻击 者 做 出 反应 并 适应 防御 时 ， 它 们 
显示 出 强大 的 概念 漂移 。 第 三 ， 对 于 没有 任何 固定 功能 集 (如 文本 流 ) 的 数据 流 ， 必 
须 执 行 附加 的 特征 提取 和 选择 任务 。 如 果 候 选 特征 的 数量 太 大 ， 那 么 传统 的 特征 提取 技 
术 就 会 失败 。 

针对 前 两 个 难题 ， 我 们 开发 了 -种 多 分 区 多 块 集成 分 类 器 ， 其 中 使 用 。- fola 18d 
数据 从 > 个 连续 的 数据 块 中 训练 "个 分 类 器 的 集成 ， 从 而 产生 此 种 分 类 器 的 集成 。 其 中 
使 用 单个 数据 块 来 训练 每 个 分 类 器 ， 与 现 有 的 多 分 区 多 块 相 比 ， 这 种 多 分 区 多 块 综合 技 
术 显 著 降低 了 分 类 误差 。 

为 了 解决 第 三 个 难题 ， 新 的 特征 提取 和 选择 技术 被 开发 ， 用 于 没有 任何 固定 功能 
的 数据 流 。 该 技术 的 可 扩展 性 通过 Hadoop/Map/Reduce 云 计算 架构 的 实现 来 展示 。 如 果 
数据 点 的 特征 空间 不 固定 ,分 类 问题 的 一 个 子 问题 是 描述 每 个 数据 点 中 特征 的 提取 和 选 
择 。 如 在 Kolter 和 Maloof 以 前 的 工作 中 ， 我 们 使 用 二 进 制 n - grams 集合 作为 恶意 软件 
检测 特征 。 然 而 ， 由 于 n - grams 集合 总 数 可 能 过 大 ， 我 们 明智 地 选择 具有 最 大 鉴别 力 
HJn-grms 集合 。 这 个 选择 过 程 正 在 进行 的 同时 ， 随 着 流 的 推进 ， 较 新 的 n - grams Æ 
合 主导 较 旧 的 mn - grams 集合 。 这 些 较 新 的 n - grams 集合 蔡 代 了 我 们 模型 中 较 旧 的 ， 以 
便 识 别 在 特定 时 期 的 最 佳 特征 。 

对 于 大 型 数据 集 来 说 ， 特 征 提取 和 选择 的 真实 性 实现 过 程 ， 可 以 说 时 间 和 存储 都 是 
密集 型 的 (也 就 是 时 间 和 空间 的 需求 量 都 很 大 )。 例 如 ,我们 以 前 的 工作 从 只 有 3500 
个 可 执行 文件 的 语料库 中 提取 了 约 2.5 (Zn - grams 集合 。 此 特征 提取 过 程 需要 大 量 的 
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虚拟 内 存 (具有 相关 的 性 能 开销 )， 因 为 并 非 所 有 这 些 特征 都 可 以 存储 在 主 存储 器 中 。 
在 具有 四 核 处 理 器 和 12GB 内 存 的 机 器 上 ， 提 取 和 选择 需要 大 约 2h 的 计算 时 间 和 数 干 
兆 字 节 的 磁盘 空间 。 这 还 是 使 用 纯 静 态 数据 集 ， 当 数据 集 是 动态 时 ， 提 取 和 选择 必须 重 
复 进 行 ， 这 导致 出 现 主要 的 瓶颈 问题 。 在 目前 的 方法 中 ， 我 们 考虑 一 个 更 大 的 105 万 个 
可 执行 文件 的 数据 集 ， 单 赁 我 们 以 前 的 方法 是 不 够 的 。 

因此 ， 我 们 设计 了 一 个 可 扩展 的 特征 选择 和 提取 解决 方案 ， 其 利用 Dean 和 Ghema- 
wat 的 云 计算 框架 。 根 据 集群 节点 的 可 用 性 ， 由 于 因子 m， 特 征 提取 和 选择 的 运行 时 间 
可 以 减少 ， 其 中 m 是 云集 群 中 的 节点 数 。 节 点 是 具有 廉价 商品 硬件 的 机 器 。 因 此 ， 该 
解决 方案 也 具有 成 本 效益 ， 因 为 不 需要 高 端 计算 机 。 

关于 合成 数据 、 真 正 的 僵尸 网 络 流量 传播 和 恶意 可 执行 文件 的 检测 ， 理 论 和 经 验证 
据 都 证 明了 ， 我 们 的 方案 相对 于 其 他 最 新 流 分 类 技术 的 有 效 性 。 详 细 信 息 见 第 25 章 。 
更 多 详细 信息 也 可 以 在 本 章 参考 文献 [MASUI] 中 找到 。 
34.2.3.2 基于 云 的 内 部 威胁 检测 

恶意 内 部 人 员 活 动 的 证 据 通常 被 掩盖 在 大 数据 流 中 。 例 如 ， 累 积 数 月 或 数 年 的 系统 
日 志 。 基 于 集成 的 流 挖掘 技术 利用 多 种 分 类 模型 ， 即 使 在 流 是 无 限制 、 不 断 演进 和 未 标 
记 的 情况 下 ， 也 可 以 在 流 中 实现 高 精度 的 异常 检测 。 这 使 得 该 方法 有 效 地 识别 了 内 部 威 
胁 ， 这 些 威胁 随 着 时 间 变 化 ， 通 过 改变 其 行为 而 隐藏 活动 。 
34. 2. 3.3 ”基于 云 的 信息 共享 保障 (AIS) 

美国 国防 部 对 AIS 的 愿景 是 “在 信息 环境 中 具有 可 操纵 性 ， 通 过 敏捷 企业 提供 信息 
的 力量 ， 以 确保 任务 成 功 ”。 国 家 安全 局 首席 信息 官 Lonny Anderson AER, 他 们 也 在 专 
注 于 以 “以 云 为 中 心 ” 的 方式 与 其 他 机 构 进行 信息 共享 。 为 了 满足 美国 国防 部 的 需求 ， 
我 们 的 项 目 正 在 开发 由 AFOSR 资助 的 以 云 为 中 心 的 信息 共享 技术 和 工具 。 在 我 们 的 方 
法 中 ， 组 织 将 其 策略 和 数据 放 在 云端 ， 这 些 数据 根据 政策 在 各 组 织 之 间 共 享 。 
由 欧洲 航空 研究 与 发 展 研 究 院 (EOARD) 资助 ， 我 们 与 欧洲 合作 伙伴 (伦敦 大 学 
国王 学 院 、 意 大 利 Insubria 大 学 ) ， 开 发 了 示范 系统 。 第 一 个 演示 说 明了 如 何 根据 XAC- 
ML 中 指定 的 策略 在 云 中 共享 信息 。 在 第 二 次 演示 中 ， 我 们 正在 实施 基于 语义 Web 的 策 
略 引 警 ， 并 展示 了 多 个 社交 网 络 可 以 基于 语义 Web 策略 分 享 我 们 云端 的 信息 。 对 于 这 
两 个 演示 ， 我 们 将 使 用 我 们 实施 的 云 数据 安全 管理 器 。 这 些 示范 系统 在 第 27 章 和 第 28 
章 中 有 描述 。 详 细 信 息 也 可 以 在 本 章 参考 文献 [CADE12] 、[ THURI2] 中 找到 。 


34.2.4 云 的 安全 模型 


34.2.4.1 服务 云 中 的 一 种 信息 流 控制 的 细 粒 度 模型 
随 着 SOA 日 益 完善 和 在 强大 的 服务 云 的 推动 下 ， 通 过 整合 来 自 不 同 提 供 商 的 服务 ， 
快速 原型 设计 和 部 署 应 用 程序 正在 成 为 现实 。 虽 然 服务 云 有 很 多 好 人 处， 但 安全 性 仍然 是 
一 个 主要 问题 。 访 问 和 信息 流 控制 是 服务 云 的 安全 的 主要 问题 。 我 们 在 下 面 的 段落 中 总 
结 了 我 们 的 研究 成 果 。 详 细 内 容 请 参见 本 章 参考 文献 [TU10] 和 [SHE12] 。 
我 们 已 经 开发 了 一 种 支持 WS 组 合 的 细 粒 度 信息 流 控制 的 新 型 模型 ， 即 服务 链 信息 
流 控制 (Service Chain Information Flow Control, SCIFC) 模型 。 由 于 在 服务 链 中 服务 之 
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间 交 换 的 数据 可 能 相关 ， 为 了 避免 不 必要 的 信息 泄露 ， 服 务 链 应 考虑 以 原始 或 转换 形式 
接收 其 数据 的 所 有 服务 。 在 响应 流 中 ， 服 务 链 已 经 建立 ， 每 个 服务 都 知道 谁 可 以 在 响应 
中 直接 或 间接 访问 信息 。 在 这 种 情况 下 ， 服 务 *; 确 定 是 否 允 许 其 响应 中 包含 的 数据 直接 
或 间接 释放 到 服务 链 s，, ，…，s, 中。 在 请 求 流 中 ， 要 建立 服务 链 ， 就 不 能 确定 链 中 的 
具体 服务 。 服 务 s, 在 构建 下 一 个 服务 s 时， 需要 和 弄 清楚 数据 发 起 者 是 否 愿 意 将 其 敏感 
数据 从 ,的 请 求 中 提取 出 来 ， 放 到 服务 ;,,, 中 ， 因 此， 有 必要 支持 反 向 检查 协议 ， 以 
便 我 们 用 s 通过 s, |, 检查。 ,来 决定 ,是否 组 合 到 链 中 。 

执行 反 向 检查 允许 链 中 的 服务 通过 协作 控制 其 敏感 信息 流 。 然 而 ， 这 种 机 制 可 能 导 
致 高 通信 开销 。 为 了 降低 协议 的 复杂 性 ， 我 们 允许 服务 携带 并 执行 其 他 服务 的 安全 策 
略 。 也 就 是 说 ，* 可 以 将 其 安全 策略 发 送 到 ， 以 允许 基于 * 和 的 策略 进行 组 合 决策 。 

以 上 提供 的 机 制 有 些 “ 盲 目 ”。 也 就 是 说 ， 无 论 是 远程 执行 反 向 检查 还 是 执行 安全 策 
略 ， 每 个 服务 ,都 必须 考虑 所 有 先前 服务 (从 s, 到 s,,)， 用 于 在 s, 的 请 求 中 发 送 数 据 0,。 
然而 ， 如 果 不 可 能 从 0; 中 导出 s, 的 敏感 数据 (1<j «i), ， 则 当 组 合 s,,, 时 ，s, 就 可 以 忽略 s。 
我 们 定义 变换 因子 的 概念 来 建 模 服务 函数 的 变换 效应 ， 针 对 的 是 请 求 / 响 应 中 包含 的 数据 。 
基于 变换 因子 ， 可 以 消除 信息 流 控制 协议 中 的 不 必要 的 反 向 检查 或 策略 执行 。 

有 了 SCIFC 协议 ， 服 务 链 中 的 WS 有 权 指 定 如 何 保护 其 敏感 信息 ， 而 不 会 将 关键 信 
息 泄 露 给 不 信任 的 服务 。 此 外 ， 协 议 不 阻止 任何 组 合 形 成 ， 除 非 存 在 有 不 希望 的 信息 汇 
露 的 可 能 性 。SCIFC 协议 经 过 精心 设计 ， 以 尽量 减少 潜在 开销 ， 从 而 使 细 粒 度 信息 流 控 
制 具有 可 行 性 。 人 们 已 经 进行 了 实验 来 研究 SCIFC 协议 的 性 能 。 结 果 表 明 SCIFC 协议 的 
开销 平均 约 为 20 个 服务 链 的 16% ， 考 虑 到 其 能 实现 细 粒 度 安 全 控制 的 好 处 ， 这 也 是 合 
理 的 。 
34.2.4.2 CloudMask: 细 粒 度 属性 访问 控制 

DaaS 是 一 种 新 兴 的 云 服 务 ， 组 织 可 以 无 颖 地 存储 在 云 中 ， 并 根据 符合 法 律 要 求 和 
组 织 策 略 的 访问 控制 策略 进行 检索 。Amazon S3 和 Microsoft Azure 存储 服务 是 目前 可 用 
的 两 种 流行 服务 。 在 这 种 情况 下 ， 一 个 重要 的 要 求 要 通过 对 存储 在 云 中 数据 的 细 粒 度 访 
问 控制 来 表示 。 访 问 控制 应 根据 主体 性 质 ( 称 为 身份 属性 ) 表示 的 策略 而 进行 实现 。 
电子 邮件 地 址 、 用 户 在 其 组 织 中 扮演 的 角色 、 用 户 访问 的 年 龄 和 位 置 是 这 些 身 份 属性 的 
几 个 示例 。 主 体 应 该 拥有 的 用 于 访问 受 保护 客体 的 身份 属性 称 为 条 件 。 以 前 研究 尚未 解 
决 的 一 个 关键 问题 是 ， 条 件 中 的 身份 属性 通常 会 对 隐私 敏感 信息 进行 编码 。 

许多 现 有 的 云 数 据 服务 确实 提供 了 一 些 访 问 控 制 模型 。 然 而 ， 在 这 些 模 型 中 ， 用 户 
的 隐私 不 受 保护 。 个 人 和 组 织 都 认为 ， 隐 私 是 所 有 解决 方案 的 关键 要 求 ， 包 括 云 服 务 ， 
用 于 数字 身份 管理 中 会 涉及 的 隐私 。 此 外 ， 内 部 威胁 被 认为 是 数据 窃取 和 侵犯 隐私 的 主 
要 来 源 之 一 。 通 过 云 计 算 ， 内 部 威胁 的 范围 不 再 局 限于 一 个 组 织 。 

在 这 项 工作 中 ， 我 们 开发 了 CloudMask， 一 种 支持 基于 加 密 的 和 基于 属性 的 访问 控 
制 ， 同 时 确保 访问 数据 中 用 户 身 份 属性 的 隐私 不 被 侵犯 的 方法 。CloudMask 方法 基于 根 
据 不 同 的 对 称 加 密 密 钥 对 数据 进行 细 粒 度 加 密 。 根 据 用 户 指 定 的 访问 控制 策略 ， 有 选择 
地 向 用 户 提供 。 为 了 确保 身份 属性 的 可 扩展 性 和 隐私 性 ， 在 CloudMask 方法 中 ， 用 户 不 
会 直接 给 予 对 称 密 钥 。 相 反 ， 用 户 被 给 予 一 个 或 多 个 密 信 ， 它 们 可 以 用 来 结合 一 些 可 变 
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的 公共 信息 来 即时 获取 密 钥 ， 它 与 数据 一 起 存储 在 云 上 。CloudMask 提供 向 前 和 向 后 的 
保密 ， 而 不 影响 给 予 现 有 用 户 的 密 信 。 换 句 话 说 ，CloudMask 有 效 地 处 理 密 钥 更 新 操 
作 ， 因 为 它 没有 直接 与 多 个 用 户 共 享 相同 的 密 钥 。 密 信和 是 由 基于 遗忘 的 信封 (Oblivious 
Commitment - Based Envelope, OCBE) 技术 分 发 给 用 户 的 。 根 据 这 项 技术 ， 只 有 当 它 们 
的 身份 属性 隐藏 在 密码 承诺 中 以 确保 隐私 ， 在 验证 与 数据 相关 的 策略 条 件 时 ， 用 户 才 可 
以 解密 加 密 的 密 信 ( 即 : 打开 信封 ) 。 这 些 协议 已 经 执行 了 ， 研 究 的 结果 发 表 在 本 章 参 
考 文献 [NABEI0], [DAMIIO] 中 。 

34.2.4.3 存储 即 服务 模型 中 的 委托 访问 控制 

这 项 工作 开发 了 一 种 新 的 方法 ， 通 过 在 访问 控制 策略 改变 时 将 数据 重新 加 密 ， 从 而 
增强 了 CloudMask 的 性 能 。 不 同 于 CloudMask 的 基本 方法 ， 这 里 要 求 数据 所 有 者 在 访问 
控制 策略 更 改 时 ， 使 用 不 同 的 密 钥 进行 新 的 数据 加 密 。 另 外 ， 增 强 模式 不 需要 所 有 者 进 
行 加 密 。 在 增强 模式 下 ， 托 管 数 据 的 云 被 委托 给 重新 加 密 操作 。 然 而 ， 云 对 数据 没有 任 
何 了 解 。 

一 个 学 者 提出 的 方法 是 基于 使 用 双 层 加 密 和 增 量 加 密 。 在 双 层 加 密 下 ， 第 一 个 
“ 粗 ” 加 密 步 又 由 数据 所 有 者 执行 ， 这 一 步 使 用 相同 的 密 钥 加 密 所 有 数据 (或 大 块 数 
据 ) 。 云 执行 第 二 个 加 密 步 又 ， 以 实现 细 粒 度 的 访问 控制 。 实 验 结果 表明 ， 这 种 方法 大 
大 降低 了 数据 所 有 者 的 开销 。 这 项 研究 在 本 章 参考 文献 [NABEI2] 中 有 报告 。 
34.2.4.4 基于 属性 的 组 密 钥 管理 方案 

基于 属性 的 系统 可 以 在 一 组 用 户 中 进行 细 粒 度 的 访问 控制 ， 每 个 用 户 由 一 组 属性 标 
识 。 安 全 的 协作 应 用 程序 ， 如 云 启 用 的 应 用 程序 ， 需 要 这 种 基于 属性 的 、 灵 活 的 系统 来 
管理 和 分 发 组 密 钥 。 然 而 ， 目 前 的 组 密 钥 管理 方案 设计 不 适合 根据 组 成 员 的 属性 来 管理 
组 密 钥 。 

在 这 项 工作 中 ， 我 们 定义 和 实施 了 新 的 密 钥 管理 方案 ， 允 许 其 属性 满足 特定 访问 控 
制 策略 的 用 户 导 出 组 密 钥 。 由 于 组 成 员 的 连接 或 离开 而 使 组 改变 时 ， 我 们 的 方案 有 效 地 
支持 密 钥 更 新 操作 。 在 密 钥 更 新 操作 期 间 ， 发 给 现 有 成 员 的 私人 信息 不 受 影响 ， 只 有 公 
共 信 息 被 更 新 才能 更 改组 密 钥 。 我 们 的 方案 基于 表达 式 ， 它 们 能 够 通过 一 系列 属性 来 支 
持 任何 单调 的 访问 控制 策略 。 我 们 的 方案 是 抵制 串通 攻击 的 ， 组 成 员 无 法 集合 其 属性 ， 
并 导出 不 能 单独 导出 的 组 密 钥 。 实 验 结果 表明 ， 我 们 的 基础 设施 高 效 实用 ， 这 比 基 于 属 
性 加 密 (ABE) 的 方案 效率 更 高 。 这 项 研究 报告 在 本 章 参 考 文献 [NABE11] 中 。 
34.2.4.5 云 中 的 隐私 保护 访问 控制 

存储 在 云 中 的 数据 往往 是 对 敏感 信息 编码 ， 并 应 受到 各 种 组 织 策略 和 法 律 规定 的 约 
束 。 解 决 安全 和 隐私 的 常用 方法 ， 是 将 数据 上 传 到 云端 之 前 进行 加 密 。 单 独 的 加 密 是 不 
够 的 ， 因 为 组 织 必须 对 数据 执行 细 粒 度 的 访问 控制 。 这 种 控制 通常 基于 如 组 织 中 的 数据 
用 户 角 色 、 用 户 正 在 进行 的 项 目 等 信息 。 因 此 ， 一 个 重要 的 需求 是 ， 基 于 表达 式 访问 控 
制 语言 指定 策略 ， 对 云 中 托管 的 加 密 数 据 实施 细 粒 度 访问 控制 。 特 别 地 ， 如 XACML 的 
表达 式 访问 控制 模型 ， 人 允许 根据 客体 的 属性 (被 称 为 身份 属性 ) ， 来 指定 对 受 保护 客体 
的 访问 控制 策略 。 电 子 邮件 地 址 、 用 户 在 组 织 中 扮演 的 角色 、 用 户 访问 的 年 龄 和 位 置 是 
这 种 身份 属性 的 几 个 示例 。 主 体 应 该 拥有 的 用 于 访问 受 保护 客体 的 身份 属性 称 为 条 件 。 
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这 种 基于 属性 的 访问 控制 模型 对 于 支持 数据 的 细 粒 度 访 问 控制 策略 至 关 重 要 。 

这 方面 的 一 个 关键 问题 是 访问 控制 策略 条 件 中 的 身份 属性 ， 通 常 含有 隐私 、 敏 感 信 
息 的 编码 。 因 此 ， 如 果 用 户 的 身份 属性 未 被 保护 ， 则 就 不 会 保护 用 户 的 隐私 。 个 人 和 组 
织 都 认为 ， 隐 私 是 所 有 解决 方案 的 关键 要 求 ， 包 括 云 服 务 ， 用 于 数字 身份 管理 中 会 涉及 
隐私 。 此 外 ， 内 部 威胁 被 认为 是 数据 窃取 和 侵犯 隐私 的 主要 来 源 之 一 。 通 过 云 计算 ， 内 
部 威胁 的 范围 不 再 局 限于 一 个 组 织 。 因 此 ， 在 组 织 和 云 中 实施 基于 属性 的 访问 控制 时 ， 
保护 用 户 的 身份 属性 是 一 个 重要 的 要 求 。 这 项 研究 的 结果 在 本 章 参考 文献 [ BERT09 ] 、 
[NABEI2] 中 有 报告 。 
34.2.4.5.1 网 格 中 的 绩效 

网 格 计 算 系 统 提 供 大 量 的 计算 资源 。 例 如 ， 计 算 能 力 、 数 据 存储 和 网 络 带宽 。 网 格 
绩效 使 得 可 以 审核 用 户 和 资源 提供 者 的 活动 ， 并 通过 收集 和 分 析 绩 效 数 据 来 调查 安全 漏 
洞 。 然 而 ， 绩 效 数据 难以 获得 ， 因 为 网 格 的 复杂 性 和 异 构 性 以 及 缺乏 合适 的 绩效 制度 。 
我 们 以 前 的 工作 已 经 开发 出 一 种 解决 绩效 计算 的 方法 ， 也 就 是 基于 一 些 特殊 目的 的 代理 
(被 称 为 绩效 代理 ) 。 这 些 代理 被 放置 在 跨 网 格 的 战略 位 置 ， 并 根据 一 些 政策 〈 称 为 绩 
效 政策 ) 收集 绩效 资料 。 绩 效 策略 规定 了 收集 哪些 资料 和 何 时 收集 这 些 资 料 。 更 重要 
的 是 ， 如 何 协调 不 同 管理 域 之 间 的 数据 收集 。 

在 这 种 情况 下 的 一 个 主要 问题 是 出 现 了 各 种 网 格 节 点 之 间 的 冲突 ， 因 为 并 非 所 有 节 
点 都 可 以 (或 愿意 ) 收集 所 需 的 绩效 数据 。 为 了 解决 这 个 问题 ， 以 实现 灵活 的 绩效 系 
统 ， 我 们 制定 了 一 个 基于 配置 文件 的 策略 选择 机 制 。 在 这 种 方法 下 ， 最 佳绩 效 策略 的 选 
择 ， 要 基于 作业 的 属性 和 网 格 节点 ， 以 及 每 个 节点 收集 绩效 数据 的 能 力 。 选 定 的 策略 保 
留 最 低层 次 的 绩效 ， 并 且 近 似 共 享 策略 的 要 求 。 本 研究 的 结果 在 本 章 参 考 文献 
[LEElla] 和 [LEE11b] 中 给 出 。 


34.2.5 在 云 中 建立 安全 的 社交 网 络 


34.2.5.1 安全 的 社交 网 络 

自 20 世纪 90 年 代 中 期 以 来 ， 社 交 网 络 为 用 户 提供 了 互动 的 方式 ， 反 映 了 社会 网 络 
或 社会 关系 。 例 如 ， 谁 分 享 兴 趣 或 活动 。 社 交 网 站 新 兴 的 前 沿 趋势 是 “实时 ”和 “ 基 
于 位 置 ”的 概念 。 那 么 什么 使 基于 位 置 的 社交 媒体 服务 如 此 重要 ? 

隐私 和 安全 : 发 布 基于 位 置 的 社交 网 站 的 更 新 ， 并 将 您 当前 的 位 置 发 布 给 用 户 ， 可 
能 会 导致 垃圾 邮件 发 送 者 的 个 人 攻击 等 问题 ， 对 您 的 安全 构成 威胁 。 
用 户 位 置 的 可 信和 度 : 在 某 些 情况 下 ， 如 2009 年 伊朗 选举 的 政治 局 面 ， 监 控 数据 的 
组 织 能 够 核实 用 户 的 位 置 变 得 非常 重要 。 

告 营销 : 社交 网 络 以 较 低 的 成 本 使 人 们 相互 联系 ， 对 于 希望 扩大 联系 的 企业 家 和 人 小 
企业 来 说 可 能 是 有 益 的 基地 。 这 些 网 络 经 常 作为 公司 销售 产品 和 服务 的 客户 关系 管理 
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昌 户 在 社交 媒体 中 强调 位 置 的 重要 性 ， 重 要 的 是 要 理解 ， 由 于 许多 原因 用 户 不 明确 
提供 这 个 信息 。 一 些 用 户 关心 他 们 的 隐私 和 安全 性 ， 其 他 人 不 能 发 现 他 分 享 地 点 的 任何 
动机 。 除 了 不 介绍 其 位 置 的 这 类 用 户外 ， 还 有 其 他 人 提供 不 正确 或 不 可 读 取 的 位 置 ， 或 
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仅 显 示 州 /国家 。 由 网 络 倡 语 和 不 完整 句子 组 成 的 文本 中 的 非 结构 化 和 自由 形式 ， 使 用 
传统 的 自然 语言 处 理 和 基于 地 名 词典 的 数据 挖掘 方法 产生 不 准确 的 结果 。 

我 们 已 经 开发 了 社会 智能 系统 并 整合 了 多 个 社交 网 络 ， 确 定 用 户 的 位 置 和 许多 其 他 
属性 ， 并 分 析 综 合 信息 及 预测 威胁 。 我 们 的 研究 也 影响 了 SNODSOC 等 系统 。 一 些 细节 
可 以 在 本 章 参 考 文献 [ABROO9], [ABRO10], [ ABROI2a], 、[ ABROI2b] 中 找到 。 
34.2.5.2 数据 的 可 信和 度 
普 渡 大 学 与 我 们 合作 解决 了 社交 网 络 的 数据 可 信和 度 问 题 。 这 项 工作 已 经 在 匿名 社交 
网 络 的 存储 库存 在 的 情况 下 ， 研 究 了 社交 网 络 中 数据 可 信和 度 的 问题 ， 并 且 设计 和 验证 了 
一 种 可 以 在 社交 网 络 中 ， 为 用 户 资料 (或 用 户 简介 中 的 特定 信息 ) 分 配 信任 分 数 的 方 
法 。 信 任 分 数 是 从 0 到 1 的 数字 指标 ， 这 表明 对 相关 信息 是 真实 的 置信 度 。 接 近 0 的 值 
表示 低 置 信 度 ， 而 接近 1 的 值 表 示 高 置信 度 。 需 要 注意 的 是 ， 这 个 信任 分 数 只 是 一 个 指 
标 ， 关 于 某 一 信息 是 否 可 信和 赖 的 最 终 决 定 ， 可 能 需要 额外 的 分 析 步 又 。 我 们 开发 的 方法 
是 基于 将 感 兴趣 的 社交 网 络 中 的 信息 与 来 自 其 他 社交 网 络 的 匿名 数据 进行 比较 ( 称 为 
参考 社交 网 络 ) 。 详 情 请 见 本 章 参 考 文献 【LIM12 ] 。 
34.2.5.3 ”文本 挖掘 与 分 析 

在 已 故 詹姆斯 : 约翰逊 博 士 和 安妮 塔 . 米 勒 女士 的 领导 下 ，ADB 咨询 公司 与 我 们 
合作 ， 探 索 了 语义 处 理 方法 ， 以 确定 子 句 级 别 的 文档 之 间 的 相关 信息 。 随 着 研究 的 进展 
发 现 语 义 图 匹配 方法 产生 了 与 两 者 相关 的 有 意义 的 信息 ， 以 及 链接 到 与 参考 图 匹配 的 图 
形 中 新 增加 的 信息 。 还 发 现 可 以 使 用 相关 性 和 增强 信息 措施 对 相关 信息 进行 排序 。 显 而 
易 见 的 是 ， 开 发 的 方法 适用 于 其 他 领域 ， 如 情报 、 新 闻 报 道 监 控 、 识 别 网 络 威胁 和 攻 
击 ， 以 及 利益 驱动 的 互联 网 搜索 信息 。 测 试 方法 是 交换 匿名 活动 家 和 联邦 调查 局 公布 的 
报告 中 的 网 络 威胁 信息 ， 其 结果 令 人 鼓 甸 。 

这 项 研究 大 大 扩展 了 自由 文本 的 语义 分 析 : 量化 语义 内 容 和 语义 上 下 文 ; 纳入 
DLSafe 规 则 和 引渡 假设 ,模拟 过 程 并 产生 推论 ， 增 加 匹配 相关 内 容 的 可 能 性 并 发 现 新 知 
识 ; 创建 一 个 新 的 扩展 的 语义 图 结构 的 严格 定义 ， 其 语义 相关 性 度量 用 于 量化 以 前 未 达 
到 的 级 别 的 识别 信息 。 这 些 新 技术 为 跨 域 应 用 打下 了 基础 ， 包 括 对 支持 国家 情报 分 析 师 
从 大 量 自由 文本 中 确定 重点 信息 。 研 究 的 一 些 细节 可 以 在 本 章 参 考 文献 [ JOHNI2a ] 、 
[JOHNI2b] 和 [JOHN12e] 中 找到 。 
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34.3 总 结 和 展望 





在 本 章 中 ， 我 们 概述 了 关于 云 保障 的 研究 。 这 是 关于 数据 和 应 用 安全 更 大 举措 中 的 

一 部 分 ， 还 包括 数据 来 源 安 全 和 安全 应 用 的 语义 Web 技术 等 主题 。 本 章 重 点 介绍 了 我 

们 4 个 方面 的 贡献 ， 它 们 是 去 数据 安全 和 信息 管理 、 使 用 云 的 安全 应 用 、 为 云 和 技术 开 
发 的 安全 模型 ， 以 及 开发 云 中 的 安全 社交 网 络 。 

我 们 开发 的 技术 与 我 们 定义 的 云 安 全 框架 的 各 个 层次 相关 。 我 们 认为 没有 办 法 开发 

一 个 安全 的 云 。 也 就 是 说 ,我 们 需要 混合 和 匹配 一 系列 技术 来 满足 我 们 的 应 用 需求 。 挑 

战 在 于 以 安全 的 方式 集成 多 种 安全 技术 来 开发 安全 的 云 。 正 如 我 们 之 前 所 说 的 ， 几 乎 不 
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可 能 提供 100% 的 安全 。 因 此 ， 我 们 需要 设计 云 安全 ， 将 尽 可 能 为 执行 的 任务 提供 安全 
性 。 也 就 是 说 ， 挑 战 是 从 可 能 受到 损害 的 组 件 中 开发 安全 的 云 。 本 章 参 考 文献 
[UTDIO] 给 出 了 从 不 可 信 组 件 中 开发 安全 系统 的 一 些 挑战 。 我 们 需要 开发 类 似 的 解决 
方案 来 保护 云 。 
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#355 本 书 总 结 和 展望 


35.1 关于 本 章 


这 一 章 为 本 书 进行 收尾 。 我 们 讨论 了 几 个 方面 ， 包 括 服务 安全 技术 、 语 义 Web 安 
全 技术 、 云 计算 技术 、 云 计算 安全 技术 、 云 计算 实验 系统 、 云 计算 安全 实验 系统 、 用 于 
安全 应 用 的 云 计算 系统 、 构 建 可 信 云 和 开发 基础 设施 、 教 育 倡议 和 云 安全 研究 计划 。 讨 
论 的 主题 包括 云 虚拟 化 、 云 数据 管理 、 云 存储 以 及 云 功 能 的 安全 问题 。 男 外 我 们 还 讨论 
了 新 兴 的 商业 产品 。 实 验 系统 是 我 们 在 UTD 开发 的 系统 ， 包 括 云 查询 安全 人 处理 系统 以 
及 基于 云 的 信息 共享 保障 系统 。 

本 章 的 结构 如 下 。 在 35.2 B, 我们 将 总 结 本 书 。 该 总 结 选 自 每 章 的 总 结 部 分 。 在 
35.3 节 中 ， 我 们 讨论 云 计算 安全 的 方向 。 在 35.4 节 中 ， 将 讨论 我 们 在 云 计算 安全 中 的 
目标 。 在 35. 5 节 中 ， 在 现 有 技术 基础 上 ， 我 们 将 给 出 未 来 发 展 方向 的 建议 。 






































35.2 本 书 总 结 








我 们 总 结 每 一 章 的 内 容 ， 它 们 基本 上 均 摘 自 每 章 的 总 结 和 展望 部 分 。 第 1 E fa 
述 了 这 本 书 。 我 们 首先 简要 介绍 了 云 计 算 的 支撑 技术 ， 包括 信息 安全 以 及 数据 、 信 息 和 
知识 管理 。 然 后 ， 我 们 介绍 了 本 书 中 讨论 的 各 种 主题 ,包括 Web 服务 安全 和 语义 Web 
安全 ， 这 些 都 是 云 计算 安全 的 核心 。 我 们 还 讨论 了 云 计算 和 云 计算 安全 。 我 们 的 框架 是 
一 个 九 层 框 架 ， 每 层 都 在 本 书 的 对 应 部 分 中 进行 了 阐述 。 该 框架 如 图 1. 11 所 示 。 我 们 
在 图 35. 1 中 重复 了 这 个 框架 。 

这 本 书 分 为 九 部 分 。 第 一 部 分 描述 了 安全 和 数据 管理 技术 ， 由 3 章 组 成 : 第 2、3 
和 4 章 。 第 2 章 概 述 了 计算 系统 的 演进 。 第 3 章 概 述 了 安全 系统 。 第 4 章 讨 论 了 数据 、 
言 息 和 知识 管理 。 

描述 服务 安全 的 第 二 部 分 包括 3 章 : 第 5、6 和 7 章 。 第 5 章 讨论 了 Web 服务 和 
Web 服务 安全 。 特 别 是 ， 我 们 首先 讨论 了 服务 的 含义 。 接 下 来 ,我们 讨论 了 面向 服务 的 
计算 中 的 高 级 概念 。 然 后 讨论 了 通过 面向 服务 的 档案 化 和 Web 服务 实现 面向 服务 的 信 
息 系 统 。 我 们 还 讨论 了 服务 的 安全 问题 。 第 6 章 讨 论 了 语义 Web 服务 ， 因 为 我 们 的 几 
个 云 原 型 使 用 了 语义 Web 技术 。 专 用 的 安全 Web 服务 和 安全 性 是 第 7 章 的 主题 。 

描述 云 计算 的 第 三 部 分 包括 5 章 : 第 8、9、10、11 和 12 章 。 我 们 在 第 8 章 中 概述 
了 云 计 算 。 第 9 章 讨论 了 云 计算 功能 。 第 10 章 讨 论 了 云 数据 管理 ， 这 是 我 们 研究 与 开 
发 的 重点 。 第 11 章 讨 论 了 移动 云 。 云 计算 产品 和 标准 是 第 12 章 的 主题 ， 最 后 是 一 些 专 
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图 35.1 FARMER BUT 
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门 的 云 服务 。 

第 四 部 分 描述 了 云 计算 实验 系统 ， 包 括 3 章 : 第 13、14 和 15 章 。 第 13 章 讨论 了 
基于 语义 Web 云 查 询 处 理 的 原型 系统 。 第 14 章 讨 论 了 我 们 在 云 上 托管 社交 网 络 的 工 
作 。 第 15 章 讨 论 了 我 们 开发 的 多 种 原型 ， 包 括 用 于 社交 网 络 的 云 计 算 、 用 于 语义 Web 
数据 存储 的 云 计 算 和 用 于 基于 本 体 的 查询 处 理 的 云 计算 。 

第 五 部 分 描述 云 计算 安全 ， 由 6 章 组 成 : 5816. 17, 18, 19, 20 和 21 章 。 第 16 3& 
概述 了 云 计算 安全 的 概念 。 第 17 章 讨 论 了 云 计 算 安 全 功能 。 云 数据 安全 管理 是 第 18 章 
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的 主题 。 第 19 章 讨论 了 云 计算 安全 指南 。 第 20 章 讨论 了 安全 即 服务 的 概念 。 第 21 章 
讨论 了 云 计算 安全 产品 。 

第 六 部 分 描述 了 云 计算 安全 实验 系统 ， 包 括 3 章 : 第 22、23 和 24 章 。 我 们 在 云 中 
的 关系 数据 查询 安全 处理 器 已 在 第 22 章 中 讨论 。 我 们 在 云 中 的 语义 Web 数据 查询 安全 
处 理 器 已 在 第 23 章 中 讨论 。 我 们 在 云 中 信息 集成 安全 工作 已 在 第 24 章 讨论 。 

第 七 部 分 描述 了 面向 云 的 安全 应 用 ， 其 中 包括 4 章 : 第 25、26、27 和 28 章 。 我 们 
在 第 25 章 讨论 了 我 们 基于 云 的 恶意 软件 的 检测 系统 。 我 们 在 第 26 章 讨论 了 云 中 的 内 部 
威胁 检测 。 第 27 章 讨 论 了 我 们 在 云 中 的 信息 共享 保障 系统 。 第 28 章 讨 论 了 我 们 在 语义 
云 中 保障 信息 共享 的 方法 。 

第 八 部 分 由 3 章 组 成 : 第 29、30 和 31 章 。 重 点 讨论 了 我 们 关于 开发 可 信赖 云 的 想 
去 。 在 第 29 章 中 ， 我 们 讨论 了 云 服务 的 信任 管理 。 在 第 30 章 中 ， 我 们 讨论 了 云 服 务 的 
隐私 问题 。 在 第 31 章 中 ， 我 们 讨论 了 云 服务 的 完整 性 和 数据 质量 。 

第 九 部 分 由 4 章 组 成 : 58 32, 33, 34, 35 章 。 它 讨论 了 我 们 建立 基础 设施 、 教 育 
项 目 和 云 计算 安全 研究 项 目的 方法 。 第 32 章 讨论 了 我 们 开发 的 云 计算 安全 基础 设施 。 
在 第 33 章 中 讨论 我 们 在 云 计算 安全 中 的 教育 计划 。 最 后 ， 在 第 34 章 中 ， 我 们 讨论 了 我 
们 关于 云 计算 安全 的 多 组 织 协作 研究 计划 。 第 32、33 和 34 章 的 内 容 构成 了 我 们 在 云 计 
算 安 全 中 的 实验 工作 的 基础 。 第 35 章 对 本 书 进 行 了 总 结 。 

这 本 书 有 4 个 附录 。 在 附录 A 中 ,提供 我 们 所 写 的 所 有 书籍 是 如 何 相互 关联 的 信 
息 。 在 附录 B 中 ,我 们 讨论 数据 挖掘 技术 。 我 们 在 云 计算 安全 中 的 研究 , 已 经 利用 了 
许多 这 些 技 术 。 在 附录 C 中 ， 我 们 讨论 数据 安全 管理 。 我 们 在 云 数据 安全 管理 方面 的 
工作 所 基于 的 概念 在 附录 C 中 讨论 。 最 后 在 附录 D 中 ， 我 们 讨论 我 们 对 保障 信息 共享 
的 合作 研究 ， 这 为 我 们 基于 云 中 信息 共享 保障 工作 提供 了 主要 动力 。 

正如 我 们 所 强调 的 ， 在 该 领域 有 许多 发 展 ， 我 们 不 可 能 列 出 所 有 成 果 。 我 们 提供 了 
一 个 广泛 但 相当 全 面 的 本 领域 的 概况 。 本 书面 向 技术 管理 者 以 及 想 要 了 解 这 一 领域 的 技 
术 人 员 。 它 也 适用 于 希望 在 数据 和 应 用 安全 方面 (特别 是 一 般 的 云 计算 安全 ) 研究 的 


学 生 。 
35.3 云 计 算 和 云 计 算 安 全 的 方向 


云 计算 和 云 计 算 安 全 有 许多 方向 。 我 们 在 本 书 所 讨论 的 每 个 主题 中 会 论述 其 中 的 一 
些 。 图 35. 2 说 明了 方向 和 挑战 。 


35.3.1 安全 的 服务 


Web 服务 和 SOA 是 云 的 核心 。 虽 然 Web 服务 有 许多 发 展 ， 但 是 对 Web 服务 安全 仍 
需要 进行 大 量 研究 。 此 外 ， 全 球 信息 网 格 和 以 网 络 为 中 心 的 企业 服务 等 重大 设施 ， 都 是 
基于 网 络 服务 和 SOA。 因 此 ， 通 过 使 用 语义 Web 来 确保 这 些 技术 以 及 使 Web 服务 更 加 
智能 化 ， 这 对 于 下 一 代 云 来 说 至 关 重 要 。 
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安全 服务 
“开发 安全 的 语义 
Web 服 务 


第 35 章 本 书 总 结 和 展望 【 司 





云 计算 和 云 计算 安全 
中 的 方向 和 挑战 


` 安全 即 服务 
















云 计算 安全 
* 身份 和 访问 管理 
“虚拟 化 安全 

- 云 数据 安全 管理 
“ 云 取证 

* 云 管理 

























图 35.2 云 计算 和 云 计算 安全 中 的 方向 和 挑战 


35.3.2 aie 
最 近 有 很 多 关于 云 计 算 的 工 





作 ， 包 括 虚拟 化 、 云 数据 存储 和 云 数据 管理 。 云 计算 的 








主要 挑战 是 处 理 大 量 的 数据 和 过 程 。 也 就 是 说 ， 使 用 云 解 决 大 数据 问题 将 是 一 个 挑战 。 
此 外 ， 为 了 安全 应 用 ， 还 应 该 审查 云 计算 。 例 如 ， 恶 意 软 件 检测 和 电子 邮件 中 的 垃圾 邮 


























件 过 滤 。 
35.3.3 云 计算 安全 





我 们 要 检查 云 中 的 虚拟 化 、 存 储 、 数 据 管理 和 网 络 的 安全 性 。 关 于 云 中 的 身份 管理 
和 访问 控制 ， 我 们 还 有 很 多 工作 要 做 。 我 们 需要 适合 云 的 安全 模型 。 例 如 ， 需 要 检查 如 
ABAC 之 类 的 模型 。 我 们 需要 开发 类 似 于 SAML 和 XACML 的 标准 ， 以 包含 更 复杂 的 细 
粒度 访问 控制 形式 。 随 着 Web 服务 爆炸 式 的 发 展 ， 我 们 在 云 上 进行 越 来 越 多 的 交易 ， 
并 参与 社交 网 络 ， 因 此 保护 个 人 身份 以 及 确保 授权 访问 至 关 重 要 。 虚 拟 化 安全 以 及 云 取 
证 和 审计 也 是 需要 大 量 工 作 的 领域 。 最 后 ， 我 们 需要 确定 的 方面 类 似 于 管理 、 业 务 连 续 
性 规划 、 法 律 方面 以 及 云 的 运营 管理 。 


35.4 我 们 保护 云 的 目标 
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虽然 我 们 已 经 讨论 了 许多 关于 云 计算 和 云 计 算 安 全 的 概念 ， 如 虚拟 化 、 云 取证 和 管 





理 方面 ， 但 我 们 的 大 部 分 研究 仍 集中 在 云 数 据 安全 管理 上 。 因 此 ， 我们 的 主要 目标 之 一 



































是 继续 开发 云 数据 安全 存储 系统 、 云 数据 安全 管理 系统 以 及 实施 恶意 软件 检测 、 内 部 威 
胁 检测 以 及 云 中 信息 共享 保障 等 应 用 。 
我 们 研究 的 一 些 主要 方面 是 提取 来 自 结构 化 和 非 结 构 化 的 众多 数据 源 的 实体 ， 及 实 








体 之 间 关 系 。 从 提取 的 实体 和 实体 之 间 的 关系 构建 网 络 。 分 析 网 络 ， 并 从 网 络 中 提取 对 
分 析 人 员 有 用 的 信息 。 我 们 的 目标 是 实现 在 云 中 开发 的 社交 网 络 系统 。 此 外 ， 随 着 我 们 
在 社交 网 络 的 安全 和 隐私 方面 取得 的 进展 ， 我 们 还 将 在 云 中 实施 安全 的 社交 网 络 。 
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外 云 计 算 开 发 与 安全 





我 们 在 UTD 的 团队 正在 进行 云 虚拟 化 安全 、 云 取证 和 形式 策略 分 析 的 广泛 研究 。 
因此 ， 我 们 将 继续 探索 云 计算 的 基本 问题 。 图 35. 3 说 明了 我 们 保护 云 的 目标 。 











TRB =. 
和 关系 


基于 云 的 安 
全 社交 网 络 




















图 35.3 我 们 保护 云 的 目标 


35.5 我 们 该 怎么 继续 发 展 


本 书 着 重 于 服务 安全 、 云 计算 和 云 计算 安 全 。 在 35.3 节 中 ,我 们 已 经 在 这 一 领域 
提出 了 许多 挑战 。 如 果 要 在 这 个 非常 重要 的 领域 取得 进展 ， 就 要 继续 研究 开发 。 

问题 是 我 们 该 怎么 发 展 ” 首 先 ， 希望 在 这 一 领域 工作 的 人 员 必 须 熟练 掌握 支撑 技 
AR, 包括 服务 、 语 义 Web、 信 息 安全 和 数据 、 信 息 管理 和 知识 管理 。 例 如 ， 了 解构 成 
Web 服务 的 技术 以 及 它们 如 何 用 于 云端 是 很 重要 的 。 此 外 ， 还 需要 了 解 正 在 开发 的 许 
多 标准 ， 并 且 能 够 确定 最 适合 其 组 织 的 标准 。 接 下 来 ， 因 为 该 领域 正在 迅速 扩张 ， 而 且 
此 领域 也 在 不 断 发 展 。 读 者 必须 跟 上 发 展 ， 包 括 阅读 商业 产品 和 原型 。 最 后 ， 我 们 鼓励 
读者 对 产品 进行 实验 ， 并 开发 安全 工具 。 这 是 熟悉 特定 领域 的 最 佳 方式 。 在 实践 中 解决 
问题 ， 并 提供 解决 方案 来 更 好 地 理解 。 开 发 人 员 应 该 熟悉 Hadoop, Map/Reduce, HBase 
和 Storm 等 技术 。 云 将 继续 对 处 理 和 存储 大 量 数据 产生 重大 影响 ， 因 此 云 的 安全 性 至 关 
重要 。 这 样 ， 组织 将 更 加 舒适 地 将 其 数据 存储 在 云端 。 

我 们 需要 联邦 和 地 方 政府 等 资助 机 构 的 研发 支持 。 美 国 国家 科学 基金 会 ,美国 国家 
安全 局 ， 美 国 陆军 、 海 军 、 空 军 ， 美 国 国防 高 级 研究 计划 局 、 美 国情 报 高 级 研究 计划 局 
和 美国 国土 安全 部 等 机 构 正 在 资助 安全 研究 。 空 军 专注 于 云 安全 。 我 们 还 需要 商业 公司 
投资 研发 资金 ， 以 便 在 工业 研究 方面 取得 进展 ， 并 能 够 将 研究 成 果 转 化 到 商业 产品 中 。 
我 们 还 需要 与 国际 研究 界 合作 ， 以 解决 问题 从 而 提出 不 仅 符合 国家 利益 ， 也 符合 国际 利 
益 的 标准 。 综 上 所 述 ， 我 们 需要 公共 、 私 人 、 学 术 的 合作 伙伴 ， 以 在 云 安 全 的 重要 领域 
上 开发 突破 性 技术 。 
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第 九 部 分 总 结 


第 九 部 分 的 章节 内 容 描述 了 基础 设施 、 教 育 项 目 ， 以 及 我 们 正在 UTD 研发 的 研究 
计划 。 这 项 工作 在 前 面部 分 讨论 过 的 原型 中 发 挥 了 重要 作用 。 

在 第 32 章 ， 我 们 描述 了 为 云 安 全 开发 的 基础 设施 ， 以 文 持 我 们 的 项 目 。 我 们 的 云 
由 硬件 组 件 、 软 件 组 件 和 数据 组 件 组 成 。 我 们 正在 将 云 与 当前 的 基础 设施 相 结合 ， 并 开 
发 了 一 些 利 用 我 们 基础 设施 而 完善 的 工具 。 这 些 工 具 已 经 在 本 书 的 某 几 个 章节 中 讨论 
过 ， 包 括 云 中 的 查询 处 理 安全 、 云 中 的 社交 网 络 和 云 中 的 恶意 软件 检测 。 我 们 利用 Ha- 
doop/ Map/ Reduce 技术 为 云 提供 数据 存储 功能 。 

在 第 33 章 ， 我们 讨论 了 云 计算 安全 教育 项 目 。 特 别 是 在 云 计算 安全 方面 ， 我 们 开 
发 了 多 个 课程 ， 包 括 云 数据 安全 管理 、 云 数据 安全 存储 、 并 确保 去 取证。 此外， 我 们 还 
开发 了 云 计算 安全 的 旗舰 课程 。 

在 第 34 章 ， 我 们 讨论 了 UTD 主持 的 关于 云 计 算 安 全 的 各 种 研究 项 目 。 特 别 是 ,我 
们 讨论 了 云 查 询 处 理 安全 、 云 安全 模型 ， 以 及 在 云 中 构建 安全 的 社交 网 络 的 工作 。 
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pri K 


MRA ”数据 管理 系统 一 一 发 展 与 趋势 


A.1 概述 


附录 A 的 主要 目的 是 讲述 我 们 以 数据 管理 、 数 据 挖掘 和 数据 安全 方面 为 背景 而 编 
写 的 一 系列 书籍 。 我 们 的 这 一 系列 书籍 始 于 1997 年 的 《数据 管理 系统 的 演进 与 互 操 
作 》( 见 本 附录 参考 文献 [THUR97] ) 。 我 们 随后 的 书 是 从 这 第 一 本 书 演变 的 。 我 们 在 
后 续 书籍 的 附录 A 中 ， 基 本 上 重复 了 第 一 本 书 的 第 1 章 内 容 。 附 录 A 的 目的 是 提出 数 
据 管理 系统 的 概述 。 然 后 将 讨论 我 们 所 写 的 书籍 之 间 的 相互 关系 。 

正如 我 们 的 系列 书籍 中 所 述 ， 信 息 系统 技术 的 发 展 , 已 经 促进 了 许多 业务 领域 中 众 
多 应 用 的 计算 机 化 。 数 据 已 经 成 为 许多 组 织 的 关键 资源 ， 因 此 ， 高 效 地 获取 数据 、 共 享 
数据 ， 以 及 从 数据 中 提取 信息 ， 并 利用 信息 已 经 成 为 迫切 的 需求 。 因 此 ， 我 们 已 经 对 分 
散在 多 个 站 点 中 的 各 种 数据 源 进行 整合 而 做 出 了 一 些 努 力 。 这 些 数据 源 可 以 是 由 数据 库 
管理 系统 所 管理 的 数据 库 ， 也 可 以 是 简单 的 文件 。 为 了 支持 多 个 数据 源 和 系统 之 间 的 交 
互 操作 ， 我 们 正在 开发 各 种 工具 。 这 些 工 具 使 一 个 系统 的 用 户 以 高 效 和 透明 的 方式 访问 
其 他 系统 。 

我 们 将 数据 管理 系统 定义 为 管理 数据 的 系统 ， 从 数据 中 提取 有 意义 的 信息 ， 并 加 以 
利用 。 因 此 ， 数 据 管理 系统 包括 数据 库 系统 、 数 据 仓 库 和 数据 按 气 系统。 数据 可 以 是 关 
系数 据 库 中 的 结构 化 数据 ， 也 可 以 是 非 结构 化 数据 。 例 如 ， 文 本、 语音 、 岁 像 和 视频 。 
过 去 有 很 多 关于 区 分 数据 、 信 息 和 知识 的 讨论 。 我 们 并 没有 试图 要 明确 这 些 定义 。 对 于 
我 们 而 言 ， 数 据 可 能 只 是 位 和 字 节 ， 或 者 它 可 以 给 用 户 传达 一 些 有 意义 的 信息 。 然 而 ， 
我 们 将 区 分 数据 库 系统 和 数据 库 管 理 系统 。 数 据 库 管理 系统 是 管理 包含 持久 性 数据 的 数 
据 库 组 件 。 数 据 库 系统 由 数据 库 和 数据 库 管理 系统 组 成 。 

数据 管理 系统 发 展 与 互 操作 的 一 个 关键 部 分 体现 为 异 构 数据 库 系统 的 互 操作 性 。 自 
20 世纪 70 ERRAR, 已 经 报道 了 数据 库 系 统 之 间 互 操作 性 的 一 些 成 就 。 然 而 ， 只 是 
最 近 才 发 现在 异 构 数据 库 系统 中 的 商业 发 展 。 主 要 的 数据 库 系 统 提供 商都 在 提供 其 产品 
和 其 他 系统 之 间 的 互 操作 性 。 此 外 ， 许 多 数据 库 系统 提供 商 也 正在 向 称 为 客户 端 — 服 
务 器 的 架构 中 进行 迁移 ， 这 有 利于 增强 分 布 式 数据 管理 的 能 力 。 除 了 需要 在 不 同 的 数据 
库 系统 和 客户 端 一 服务 器 环境 之 间 的 互 操 作 性 的 努力 之 外 ， 其 他 工作 还 涉及 处 理 自治 
和 联合 环境 。 

附录 A 的 结构 如 下 。 由 于 数据 库 系 统 是 数据 管理 系统 的 关键 组 成 部 分 ,我 们 首先 
438 


































































































































































































DEMENS 





概述 数据 库 系 统 的 发 展 情况 。 这 些 发 展 在 A.2 节 中 讨论 。 然 后 我 们 在 A. 3 节 中 提出 对 
数据 管理 系统 的 愿景 。 我 们 的 数据 管理 系统 框架 将 在 A.4 节 中 讨论 。 需 要 注意 的 是 ， 
数据 控 据 、 仓 储 以 及 Web 数据 管理 是 此 框架 的 组 件 。A. 5 节 讨 论 从 特定 实例 化 框架 构 
建 信息 系统 。A. 6 节 讨 论 我 们 已 经 写 过 (或 正在 撰写 ) CRC Press 中 的 各 图 书 之 间 的 关 
系 。 本 附录 总 结 在 A. 7 节 。 


A.2 数据 库 系 统 的 发 展 


A. 1 概述 了 数据 库 系 统 技术 的 发 展 。 虽 然 20 世纪 60 年 代 早期 的 工作 着 重 于 基于 
网 络 和 分 层 数 据 模型 开发 产品 ， 但 数据 库 系统 的 大 部 分 发 展 ， 是 在 Codd 的 原创 论文 描 
述 关系 模型 ( 见 本 附录 参考 文献 【CODD70] 、[ DATE90] ) 之 后 发 生 的 。 关 系数 据 库 系 
统 的 研究 和 开发 工作 在 20 世纪 70 年 代 初期 进行 ， 并 且 在 70 年 代 开 发 了 几 个 原型 。 显 
著 的 成 就 包括 IBM System R 和 加 州 大 学 伯克利 分 校 的 INGRES, fr 20 世纪 80 年 代 ， 许 
多 关系 数据 库 系 统 的 产品 上 市 (其 中 著名 的 是 Oracle Corporation, Sybase Inc. , Informix 
Corporation, INGRES Corporation, IBM, Digital Equipment Corporation 和 Hewlett Packard 
Company), fE20 世纪 90 年 代 ， 出 现 了 其 他 厂商 的 产品 (如 微软 公司 ) 。 事 实 上 ， 到 有 目 










































































前 为 止 ， 更 多 关系 数据 库 系统 的 产品 已 经 上 市 。 然 而 ，Codd 表示 ， 许 多 作为 关系 系统 
上 市 的 产品 并 不 是 真正 的 关系 系统 (参见 本 附录 参考 文献 [DATEIO] 中 的 讨论 ) 。 然 








后 ， 他 讨论 了 系统 作为 关系 数据 库 系 统 必 须 满 足 的 各 种 标准 。 早 期 的 工作 重点 是 数据 模 
型 、 规 范 化 理论 、 查 询 处 理 和 优化 策略 、 查 询 语 言 、 访 问 策略 和 索引 等 问题 ， 后 来 转向 
支持 多 用 户 环 境 。 特 别 是 开发 并 发 控制 和 恢复 技术 。 还 提供 了 事务 处 理 支 持 。 























事务 处 理 、 分 布 
式 数据 库 系统 


下 一 代数 据 库 系统 : 


异 构 数据 库 集成 、 名 对 . 
conan mannan 


数据 仓库 、 数 据 挖 气 、 
多 媒体 数据 库 系统 、 
互联 网 数据 库 


图 A.1 数据 库 系统 技术 的 发 展 
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(0). 去 计算 开发 与 安全 








关于 关系 数据 库 系 统 以 及 事务 管理 的 研究 ， 是 在 20 世纪 70 年 代 中 期 分 布 式 数据 库 
系统 的 研究 之 后 进行 的 。 几 个 分 布 式 数据 库 系统 的 原型 开发 工作 也 是 在 20 世纪 70 年 代 
末 开 始 的 。 其 中 包括 IBM 的 System R' , Honeywell Inc. 的 DDTS (分 布 式 数据 库 测试 台 
系统 ) CCA (美国 计算 机 公司 ) 的 SDD - I Multibase MSDC (系统 开发 公司 ) 的 Mer- 
maid。 此 外 ,许多 这 样 的 系统 (例如 ，DDTS 、Multibase 、Mermaid) 在 异 构 环境 中 发 挥 
了 作用 。 在 20 世纪 90 年 代 初 期 ， 一些 数据 库 系 统 提 供 商 (如 Oracle Corporation, Sybase 
Inc. , Informix Corporation). 为 其 系统 提供 了 数据 分 发 功能 。 大 多 数 分 布 式 关系 数据 库 系 
统 的 产品 均 基 于 客户 端 一 服务 器 架构 。 这 个 想法 是 让 提供 商 A 的 客户 端 与 提供 商 B 的 
服务 需 数 据 库 系统 进行 通信 。 换 句 话 说， 客户 端 一 服务 需 计 算 模式 有 助 于 异 构 计 算 环 
境 。 关 系 和 非 关 系 商业 数据 库 系 统 之 间 的 互 操作 性 也 是 可 能 的 。 数 据 库 系统 社 群 也 参与 
标准 化 工作 。 在 标准 化 工作 中 ， 著 名 的 是 ANSI / SPARC 3 级 架构 、 数 据 字 典 系统 的 
IRDS (信息 资源 字典 系统 ) 标准 、 关 系 查 询 语言 SQL (结构 化 查询 语言 ) 和 用 于 远程 
数据 库 访 问 的 RDA (远程 数据 库 访 问 ) 协议 。 

数据 库 技术 的 另 一 重大 发 展 ， 就 是 面向 对 象 的 数据 库 管 理 系 统 的 出 现 。 开 发 这 种 系 
统 的 工作 始 于 20 世纪 80 年 代 中 期 ， 它 们 现在 可 以 通过 商业 化 方式 获得 (其 中 包括 Ob- 
ject Design Inc. , Ontos Inc. , Gemstone Systems Inc. 、Versant Object Technology 的 产品 ) 。 
有 人 认为 ， 新 一 代 应 用 如 多 媒体 、 办 公信 息 系统 、CAD / CAM 、 过 程控 制 和 软件 工程 有 
着 不 同 的 要 求 。 这 样 的 应 用 使 用 复杂 的 数据 结构 。 编 程 语 言 和 数据 模型 之 间 更 紧密 的 集 
成 也 是 需要 的 。 面 向 对 象 的 数据 库 系统 满足 了 这 些 新 一 代 应 用 程序 的 大 部 分 要 求 (UL 
本 附录 参考 文献 【CATT91] ) 。 

根据 1990 年 NSF 研讨 会 发 布 的 Lagunita 报告 ( 见 本 附录 参考 文献 【SILB90 ] 和 
[KIM90]), ， 关 系数 据 库 系统 、 事 务 处 理 和 分 布 式 (关系 ) 数据 库 系统 被 称 为 成 熟 技 
术 。 此 外 ， 提 供 商 正在 推广 面向 对 象 的 数据 库 系统 ， 并 展示 不 同 数据 库 系统 之 间 的 互 操 
作 性 。 该 报告 继续 说 明 ， 随 着 应 用 程序 越 来 越 复杂 ， 需 要 更 复杂 的 数据 库 系统 。 此 外 ， 
由 于 许多 组 织 现在 使 用 数据 库 系统 ， 在 许多 不 同类 型 的 情况 下 ， 就 需要 集成 数据 库 系 
An, 虽然 一 些 研究 已 经 开始 解决 这 些 问题 ， 商 业 产品 已 经 可 以 使 用 , 但 仍 有 几 个 需要 解 
决 的 问题 。 因 此 ， 数 据 库 系统 研究 人 员 在 20 世纪 90 年 代 初 面临 的 挑战 分 为 两 个 方面 ， 
一 个 是 下 一 代数 据 库 系 统 ， 另 一 个 是 异 构 数 据 库 系 统 。 

下 一 代数 据 库 系统 包括 面向 对 象 的 数据 库 系 统 、 功 能 数据 库 系 统 、 增 强 数据 库 系 统 
性 能 的 特殊 并 行 架 构 、 高 性 能 数据 库 系 统 、 实 时 数据 库 系统 、 科 学 数据 库 系 统 、 时 态 数 
据 库 系统 、 处 理 不 完整 和 不 确定 信息 的 数据 库 系 统 ， 以 及 智能 数据 库 系 统 (有 时 也 称 
为 逻辑 或 演绎 数据 库 系统 ) 。 理 想 情况 下 ， 数 据 库 系 统 应 提供 对 高 性 能 事务 处 理 、 模 型 
复杂 应 用 程序 、 代 表 新 类 型 数据 的 支持 ， 并 进行 智能 演绎 。 虽 然 在 20 世纪 80 年 代 末 和 
90 年 代 初 期 取得 了 重大 进展 ， 但 在 开发 这 种 数据 库 系 统 之 前 ， 还 有 很 多 工作 要 做 。 

异 构 数 据 库 系统 在 过 去 十 年 中 一 直 受 到 相当 大 的 关注 ( 见 本 附录 参考 文献 
[ MARC90 ]) 。 其 中 的 主要 问题 包括 处 理 不 同 的 数据 模型 、 不 同 的 查询 处 理 策略 、 不 同 
的 事务 处 理 算法 和 不 同 的 查询 语言 。 应 该 对 整个 系统 提供 统一 的 视图 ， 还 是 由 单个 系统 
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的 用 户 来 维持 对 整个 系统 的 视图 ? 这 些 问题 尚未 得 到 令 人 满意 


附 & fo 


的 回答 。 我 们 只 是 设想 ， 





一 个 完整 的 异 构 数 据 库 管理 系统 解决 方案 ， 也 许 需要 几 代 人 的 势力 。 后 续 研 究 应 该 是 寻 
找 这 样 针对 性 的 解决 方案 ， 还 应 该 开展 工作 来 处 理 有 限 形 式 的 异 构 性 ， 以 满足 客户 的 需 
求 。 最 近 一 直 受 到 关注 的 另 一 种 类 型 的 数据 库 系 统 ， 是 联盟 数据 库 系 统 。 需 要 注意 的 


























— 








是 ， 有 些 


的 一 部 分 ， 联 盟 也 包括 同 构 数 据 库 系 统 。 




















j 户 可 以 互 换 使 用 异 构 数 据 库 系统 和 联盟 数据 库 系 统 。 异 构 数据 库 系统 是 联盟 


网 络 用 户 的 爆炸 式 增 长 以 及 接口 技术 的 发 展 ， 为 数据 管理 研究 人 员 带 来 了 更 多 的 挑 
战 。 第 二 次 研讨 会 由 NSF 在 1995 年 发 起 ， 几 项 新 兴 技 术 在 我 们 进入 21 世纪 时 已 被 认为 


























是 重要 的 〈 见 本 附录 参考 文献 【WID096]) 。 这 包括 数字 图 书馆 、 管 理 非常 大 的 数据 
库 、 数 据 管理 问题 、 多 媒体 数据 库 、 数 据 仓 库 、 数 据 挖掘 、 协 作 计算 环境 的 数据 管理 以 








及 安全 和 隐私 。20 世纪 90 年 代 的 另 一 个 重大 发 展 是 对 象 关系 系统 的 发 展 。 这 样 的 系统 
结合 了 面向 对 象 数 据 库 系统 和 关系 数据 库 系统 的 优点 。 此 外 ， 许 多 公司 现在 的 重点 是 将 
其 数据 管理 产品 与 网 络 技术 相 结合 。 最 后 ， 对 许多 组 织 来 说 ， 越 来 越 需要 将 一 些 遗 留 数 




















据 库 和 应 用 程序 迁移 到 较 新 的 架构 和 系统 中 ， 如 客户 端 一 服务 器 体系 结构 和 关系 数据 库 

















系统 。 我 们 相信 数据 管理 系统 的 研发 并 没有 结束 。 随 着 新 技术 的 发 展 ， 数 据 管理 的 研究 











与 开发 也 将 有 新 的 机 遇 。 
所 有 数据 管理 技术 的 综合 视图 如 图 A. 2 所 示 。 图 中 显示 ， 











传统 技术 包括 数据 库 设 


计 、 事 务 处 理 和 基准 测试 。 数 据 库 系 统 基 于 关系 和 面向 对 象 的 数据 模型 。 数 据 库 系 统 可 
能 依赖 于 他 们 所 提供 的 功能 。 例 如 ， 安 全 性 和 实时 性 。 这 些 数据 库 系 统 也 可 能 是 关系 的 























或 面向 对 象 的 ， 还 有 基于 多 个 站 点 或 处 理 器 的 数据 库 系 统 。 例 如 ， 分 布 式 和 异 构 数 据 库 


系统 、 并 行 系统 和 正在 迁移 的 系统 。 最 后 ， 还 有 数据 仓储 和 挖 ， 














遇 、 协 作 和 网 络 等 新 兴 


术 。 关 于 数据 管理 系统 的 任何 综合 文献 都 应 该 涉及 所 有 这 些 技术 。 我 们 选择 了 一 些 相关 


技术 ， 并 将 其 纳入 框架 。 该 框架 在 A. 5 节 中 有 描述 。 




















传统 技术 基于 数据 模型 的 数据 库 系 统 | | ”基于 特征 的 数据 库 系 统 





， 数 据 建 模 和 数据 库 设计 


。 企业 /业务 建 模 
和 应 用 设计 








。 数 据 库 管理 系统 设计 ,演绎 (以 逻辑 为 基础 ) 
. 查询 ， 元 数据 ， 事 务 “对象 关系 
,完整 性 和 数据 质量 

.X mem 。 基于 多 站 点 /处 理 器 的 系统 
数据 管理 ， 审 计 

* , IZ * | 

数据 库 管理 a 





。 联合 
Ze 。 客户 端 - 服 务 器 
+ 标准 。 移 值 


* 并 行 /高 性 能 


图 A.2 数据 管理 系统 的 综合 视图 
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A.3 地位、 愿景 和 问题 


数据 管理 系统 取得 了 重大 进展 。 然 而 ， 许 多 技术 仍然 是 独立 的 技术 ， 如 网 A.3 所 
示 。 例 如 ， 多 媒体 系统 尚未 成 功 地 与 仓储 和 挖掘 技术 相 结合 。 我 们 最 终 的 目标 是 集成 多 




















种 技术 ， 以 便 在 适当 的 时 间 产 生 准 确 的 数据 和 信息 ， 并 及 时 分 发 给 用 户 。 我 们 的 数据 和 


网 络 技术 











言 息 管理 愿景 如 图 A. 4 所 示 。 


多 媒体 数据 库 数据 挖 据 


图 A.3 单机 系统 














图 A.4 愿景 


本 附录 参考 文献 [THUR97] 中 讨论 的 工作 解决 了 实现 这 一 愿景 面临 的 许多 挑战 。 
村 别 地 ， 讨 论 了 蜡 构 数据 库 的 集成 ， 以 及 分 布 式 对 象 技 术 在 互 操作 性 方面 的 应 用 。 虽 然 
在 互 操作 性 的 系统 方面 取得 了 很 大 进展 ,但 语义 问题 仍然 是 一 个 挑战 。 不 同 的 数据 库 有 
不 同 的 表示 。 此 外 ， 可 以 在 不 同 的 站 点 对 相同 的 数据 实体 进行 不 同 的 解释 。 解 决 这 些 语 
义 差异 ， 并 从 蜡 构 和 可 能 的 多 媒体 数据 源 中 提取 有 用 的 信息 将 是 主要 的 问题 。 本 书 尝 试 
通过 使 用 数据 挖 气 来 解决 一 些 相关 问题 。 


A.4 数据 管理 系统 框架 


为 了 成 功 地 开发 可 互 操作 的 数据 管理 系统 ， 异 构 的 数据 库 系统 集成 是 一 个 主要 的 组 
件 。 然 而 ， 还 必须 有 其 他 技术 顺利 地 相互 融合 ， 以 开发 有 效 访问 数据 和 共享 技术 ， 以 及 
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从 数据 中 提取 信息 。 为 了 促进 数据 管理 系统 的 发 展 ， 以 满足 医疗 、 金 融 、 制 造 、 军 事 等 
领域 各 种 应 用 的 需求 ， 我 们 提出 了 一 个 框架 ， 可 以 作为 数据 管理 系统 的 参考 模型 。 来 自 
该 框架 的 各 种 组 件 必 须 被 集成 ， 以 开发 数据 管理 系统 ， 并 能 文 持 各 种 应 用 。 

图 A.5 说 明了 我 们 的 框架 ， 可 以 被 视 为 数据 管理 系统 中 的 一 个 模型 。 这 个 框架 由 
三 层 组 成 。 可 以 想到 组 件 技术 ， 我 们 也 将 其 称 为 组 件 ， 属 于 特定 层 ， 并 或 多 或 少 地 构建 
在 下 层 所 提供 的 技术 之 上 。 第 一 层 是 数据 库 技术 和 分 布 层 。 该 层 由 数据 库 系 统 和 分 布 式 
数据 库 系 统 技术 组 成 。 


基于 知识 
RE 的 系统 
协作 计算 移动 计算 


信息 提取 | 

与 共享 数据 仓库 ec Ere 
互联 网 协作 数据 
数据 库 库 管理 


互 操 作 性 和 迁移 XEREIH 多 媒体 数 
数据 库 据 库 系统 


异 构 数 据 客户 端 - 服 务 
库 系统 器 数据 库 


数据 库 系 统 


X 
分 布 式 处 理 大 容量 存储 
分 布 式 


图 A.5 数据 管理 系统 框架 
第 二 层 是 互 操作 性 和 迁移 层 。 该 层 由 如 异 构 数 据 库 集 成 、 客 户 端 - 服务 器 数据 库 和 
处 理 异 构 数据 类 型 的 多 媒体 数据 库 系 统 ， 以 及 迁移 旧 数 据 库 等 技术 组 成 。 第 三 层 是 信息 
提取 与 共享 层 。 该 层 本 质 上 由 数据 管理 系统 所 支持 的 一 些 较 新 服务 的 技术 组 成 。 这 些 技 
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术 包 括 数据 仓库 、 数 据 挖掘 〈 见 本 附录 参考 文献 [THUR98] ) Web 数据 库 和 协作 应 用 
程序 的 数据 库 支 持 。 数 据 管理 系统 可 以 利用 如 网 络 、 分 布 式 处 理 和 大 容量 存储 之 类 的 较 
低级 技术 。 我 们 将 这 些 技术 分 组 到 支持 层 中 。 该 支持 层 不 属于 数据 管理 系统 框架 ， 该 层 
包括 一 些 更 高 级 别 的 技术 ， 如 分 布 式 对 象 管理 和 代理 。 另 外 ， 如 图 A.5 所 示 ， 还 有 应 
用 层 。 属 于 应 用 层 的 ， 如 协同 计算 系统 和 基于 知识 的 系统 等 类 似 可 以 利用 数据 管理 的 系 
统 。 需 要 注意 的 是 ， 应 用 层 也 不 在 数据 管理 系统 框架 之 内 。 

构成 数据 管理 系统 框架 的 技术 ， 可 以 被 认为 是 数据 管理 中 的 一 些 核心 技术 。 然 而 ， 
许多 使 用 数据 管理 技术 的 应 用 程序 都 需要 安全 性 、 完 整 性 、 实 时 处 理 、 容 错 和 高 性 能 计 
算 等 功能 。 利 用 数据 管理 技术 的 应 用 可 能 是 医疗 、 金 融 或 军事 等 。 我 们 在 图 A. 6 中 进行 了 
说 明 ， 给 出 了 将 数据 管理 技术 与 特征 和 应 用 相关 联 的 三 维 视图 。 例 如 ， 可 以 开发 用 于 医疗 
应 用 的 安全 分 布 式 数据 库 管理 系统 ， 或 用 于 金融 领域 的 容错 多 媒体 数据 库 管 理 系统 。 



































































































































应 用 领域 : 例如 医疗 、 
金融 、 军 事 、 制 造 


核心 数据 管理 
, 数据 库 管理 
,分 布 式 数据 库 管理 
, 异 构 数据 库 集成 
,客户 端 -服务 器 数据 库 
,多 媒体 数据 库 

















* 互 联网 数据 库 管理 
* 关 系 型 /面向 对 象 数据 库 
* 协作 数据 库 支 持 功能 





图 A.6 数据 管理 的 三 维 视图 

集成 属于 各 层 的 组 件 ， 对 于 开发 高 效 的 数据 管理 系统 很 重要 。 此 外 ， 数 据 管理 技术 
必须 与 应 用 技术 相 结 合 ， 以 开发 成 功 的 信息 系统 。 但 是 ， 目 前 这 些 组 件 之 间 的 集成 是 有 
限 的 。 我 们 以 前 的 “数据 管理 系统 演进 与 互 操作 ” ( 见 本 附录 参考 文献 [THUR97 ] ) , 
主要 集中 在 框架 中 所 显示 的 每 个 组 件 的 概念 、 发 展 和 趋势 上 。 此 外 ,我 们 目前 的 关于 
Web 数据 管理 书籍 (我们 也 称 为 Web 数据 管理 ) 专注 于 图 A.5 框架 中 第 3 层 的 Web 数 
据 库 组 件 。 需 要 注意 的 是 ， 安 全 性 可 跨越 所 有 层 。 文 持 层 需 要 安全 性 ， 如 代理 和 分 布 式 系 
统 。 架 构 中 的 所 有 层 都 需要 安全 性 ， 包 括 数据 库 安 全 性 、 分 布 式 数据 库 安 全 性 、 仓 储 安全 
TE. Web 数据 库 安 全 性 和 协作 数据 管理 安全 性 。 这 是 本 书 的 主题 。 也 就 是 说 ， 我 们 涵盖 了 
数据 和 应 用 程序 安全 性 的 各 个 方面 ， 包 括 数据 库 安全 和 信息 管理 安全 。 


A.5 构建 基于 框架 的 信息 系统 


图 A. 5 所 示 为 数据 管理 系统 的 框架 。 如 图 所 示 ， 数 据 管理 技术 包括 数据 库 系统 、 
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分 布 式 数据 库 系统 、 异 构 数 据 库 系统 、 迁 移 旧 数据 库 、 多 媒体 数据 库 系 统 、 数 据 仓 库 、 
数据 挖掘 、Web 数据 库 和 协作 数据 库 支 持 。 此 外 ， 数 据 管 理 系统 可 利用 分 布 式 处 理 和 
代理 等 支持 技术 。 类 似 地 ， 如 协同 计算 、 可 视 化 、 专 家 系统 和 移动 计算 等 都 要 利用 数据 
管理 系统 。 
我 们 中 的 许多 人 都 曾经 多 次 听 说 过 信息 系统 这 个 术语 。 这 些 系统 有 时 可 与 数据 管理 
系统 互 换 使 用 。 在 我 们 的 术语 中 ,信息 系统 比 数据 管理 系统 更 广泛 ， 而 且 它 包括 数据 管 
理 系统 。 事 实 上 ， 信 息 系 统 的 框架 不 仅 包 括 数据 管理 系统 层 ， 还 包括 支持 层 以 及 应 用 
层 。 也 就 是 说 ， 信 息 系统 包括 各 种 计算 系统 。 可 以 视 为 可 用 于 各 种 应 用 的 成 品 。 也 就 是 
说 ， 硬 件 处 于 最 低 端 ， 应 用 程序 处 于 最 高 端 。 

我 们 可 以 结合 图 AS 的 技术 将 信息 系统 放 在 一 起 。 例 如 ， 在 应 用 程序 层面 ， 可 能 
需要 协作 和 可 视 化 技术 ， 以 便 分 析 人 员 可 以 协作 地 执行 一 些 任务 。 在 数据 管理 层面 ， 可 
能 需要 多 媒体 和 分 布 式 数据 库 技术 。 在 支持 层面 ， 可 能 需要 海量 存储 以 及 一 些 分 布 式 处 
理 能 力 。 这 一 特殊 框架 如 图 A.7 所 示 。 男 一 个 例子 是 互 操 作 性 的 特殊 框架 。 可 能 需要 
一 些 可 视 化 技术 来 显示 来 自 异 构 数据 库 的 集成 信息 。 在 数据 管理 层面 ， 我 们 有 蜡 构 的 数 
据 库 系 统 技 术 。 在 支持 层面 ， 可 以 使 用 分 布 式 对 象 管理 技术 来 封装 异 构 数 据 库 。 这 一 特 
殊 框架 如 图 A. 8 所 示 。 


协作 、 可 视 化 可 视 化 
EE 异 构 数据 的 集成 





















































































































































分 布 式 对 象 管理 


大 容量 存储 、 分 布 式 处 理 











图 A.7 协作 多 媒体 数据 管理 框架 图 A.8 异 构 数据 库 互 操作 框架 














最 后 ， 让 我 们 用 一 个 具体 的 例子 ， 来 说 明 上 面 我 们 描述 过 的 概念 。 假 设 一 群 医生 / 
外 科 医 生 想 要 一 个 系统 ， 在 系统 中 他 们 可 以 协作 和 诊断 各 种 患者 。 这 可 能 是 医疗 视频 电 
话 会 议 应 用 程序 。 也 就 是 说 ， 在 最 高 级 别 ， 该 应 用 是 医疗 应 用 ， 更 具体 地 说 ， 是 医疗 视 
频 电 话 会 议 应 用 。 在 应 用 层面 ， 需 要 多 种 技术 ， 包 括 协作 和 电话 会 议 。 这 些 应 用 技术 将 
利用 数据 管理 技术 ， 如 分 布 式 数据 库 系统 和 多 媒体 数据 库 系 统 。 也 就 是 说 ， 可 能 需要 文 
持 音频 和 视频 等 多 媒体 数据 。 数 据 管理 技术 又 利用 了 较 低 级 别 的 技术 ， 如 分 布 式 处 理 和 
网 络 化 。 我 们 在 图 A. 9 中 进行 了 说 明 。 
虽然 应 用 技术 利用 数据 管理 技术 ， 而 数据 管理 技术 利用 支持 技术 ， 但 信息 系统 的 最 
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@) 三 计算 开发 与 安全 








终 用 户 还 是 应 用 程序 本 身 。 今 天 许多 应 用 程序 利用 信息 系统 。 这 些 应 用 来 自 














医疗 、 金 


融 、 制 造 、 电 信和 国防 等 多 个 领域 ,具体 应 用 包括 信号 处 理 、 电 子 商务 、 病 人 监护 和 情 














况 评估 。 图 A. 10 说 明了 应 用 程序 与 信息 系统 之 间 的 关系 。 














总 而 言 之 ,信息 系统 包括 数据 管理 系统 ， 以 及 如 协作 计算 系统 的 应 用 层 系统 和 如 分 














布 式 对 象 管理 系统 等 支持 层 的 系统 。 






医疗 应 用 : 
医疗 视频 电话 会 议 


OED 










应 用 领域 :医疗 、 
金融 、 制 造 、 
电信 、 国 防 





据 库 管理 据 库 管理 


信息 系统 框架 


数据 管理 系统 框架 
ua) Gan) 


图 A.9 具体 示例 图 A. 10 应 用 一 框架 关系 


A.6 书籍 之 间 的 关系 




















我 们 已 经 出 版 了 两 个 系列 的 丛书 。 第 一 系列 主要 针对 技术 管理 人 员 ， 而 第 二 个 系列 








见 





= 





针对 研究 人 员 和 开发 人 员 。 本 书 是 第 一 个 系列 中 的 第 十 个 。 我 们 以 前 的 九 本 书 是 











《数据 管理 系统 演化 和 互 操作 》 ( 见 本 附录 参考 文献 [ THUR97 ] )、《 数 据 挖 
工具 和 趋势 》( 见 本 附录 参考 文献 [ THURS ] ) 、《 网 络 数 据 管 理 和 电子 商务 》 











H: 技术 、 


( 见 本 附 


录 参 考 文献 [THUR00] ) 、《 为 电子 企业 管理 和 挖掘 多 媒体 数据 库 》 ( 见 本 附录 参考 文 
EK [ THURO1])、《XML、 数 据 库 和 语义 Web) ( 见 本 附录 参考 文献 [THURO2]), 
(Web 数据 挖掘 及 其 在 商业 智能 和 反恐 中 的 应 用 》 ( 见 本 附录 参考 文献 [ THURO3 ] ) 、 
《数据 库 和 应 用 程序 安全 : 集成 数据 管理 和 信息 安全 》( 见 本 附录 参考 文献 
































[ THUROS ] ) 、《 建 立 可 信赖 的 语义 Web》( 见 本 附录 参考 文献 [ THURO7]) 和 











《面向 语 











义 服务 的 安全 系统 》 ( 见 本 附录 参考 文献 [THUR10])。 本 书 〈 见 本 附录 参考 文献 
[THURI3]) 是 从 我 们 以 前 的 《面向 语义 服务 的 安全 系统 》 一 书 中 演变 而 来 。 所 有 这 些 
书籍 都 是 从 我 们 在 本 附录 中 说 明 的 框架 中 演变 而 来 的 ， 并 且 还 涉及 框架 的 不 同 部 分 。 这 














些 书 籍 之 间 的 联系 如 图 A. 11 所 示 。 








我 们 已 经 出 版 了 两 本 关于 第 二 辑 的 书 。 第 一 个 是 《数据 挖掘 工具 的 设计 和 实现 》 














( 见 本 附录 参考 文献 [AWAD09])， 其 次 是 《恶意 软件 检测 的 数据 挖掘 工具 》 
录 参 考 文献 [ MASU11] ) ， 其 内 容 关 联 性 如 图 A. 12 所 示 。 
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( 见 本 附 
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A7 总 结 和 展望 








《数据 挖掘: 技术 ， 


科技 ,工具 和 趋势 > 


Chapter 11 


Web 数 据 挖掘 及 
其 在 反恐 中 的 应 用 


Chapter 18 


《数据 管理 系统 演化 与 互 操 作 罗 


Chapter 10 


《网 络 数据 管理 和 电子 商务 》 


Chapter 12 









《为 电子 企业 管理 和 
挖掘 多 媒体 数据 库 》 






《XML 数据 库 和 语义 Web》 


Chapter 13 









《数据 库 和 应 用 安全 : 
集成 数据 库 管 理 和 信息 安全 》 


Chapter 25 
《建立 可 信赖 的 语义 Web»》 
Chapter 16 
《面向 服务 的 安全 系统 » 
Chapters 5, 25 
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书籍 之 间 的 关系 - XI 


PF- 


在 附录 A 中 ,我 们 提供 了 数据 管理 的 概述 。 首 先 ， 我 们 讨论 了 数据 管理 的 发 展 ， 


然后 提出 了 数据 管理 的 愿景 。 然 后 ， 我 们 说 明了 一 个 数据 管理 














ER, HEAR H 





H 3 层 组 


成 : 数据 库 系 统 层 、 互 操作 层 和 信息 提取 层 。Web 数据 管理 属于 第 3 层 。 最 后 ， 我 们 展 
示 了 如 何 由 框架 技术 来 构建 信息 系统 。 

我 们 认为 数据 管理 对 许多 信息 技术 至 关 重要 ， 包 括 数据 挖掘 、 和 多 媒体 信息 处 理 、 互 
操作 性 以 及 协作 和 知识 管理 。 在 本 附录 中 强调 数据 管理 。 安 全 性 对 于 所 有 数据 管理 技术 


都 至 关 重 要 ， 我 们 依 笔 这 些 















































技术 来 实现 云 计 算 。 我 们 将 在 附录 B 中 提供 有 关 数 据 挖掘 


的 背景 信息 。 附 录 C 将 提供 数据 管理 中 的 访问 控制 背景 知识 。 我 们 将 在 附录 D 中 讨论 


我 们 保障 信息 共享 的 方法 。 
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Web 数 据 控 握 技术 及 3 数据 库 和 应 用 安全 : 管理 和 挖 所 
eot RS Rl uc d 多 媒体 数据 库 
Hog A 












数据 挖掘 工具 


用 于 恶 痊 软 件 检测 
的 数据 挖掘 


图 A.12 书籍 之 间 的 关系 - AT 
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附录 B 数据 挖掘 技术 


B.1 概述 


数据 挖掘 的 输出 (也 称 为 任务 ) 包括 分 类 、 聚 类 、 形 成 关联 以 及 检测 异常 。 我 们 
的 工具 主要 关注 分 类 的 结果 ， 我 们 已 经 开发 了 分 类 工具 。 分 类 问题 也 被 称 为 监督 学 习 ， 
其 中 通过 模型 学 习 一 组 标记 的 示例 ， 然 后 将 具有 未 知 标签 的 新 示例 呈现 给 模型 ， 从 而 用 
于 预测 。 

有 许多 预测 模型 已 经 投入 实际 使 用 中 ， 如 马尔 科 夫 模型 、 决 策 树 、 人 工 神经 网 络 
( Artificial Neural Networks, ANN) , 支持 向 量 机 (Support Vector Machines SVM) 、 关联 规 
则 挖掘 (Association Rule Mining , ARM) 等 。 这 些 模型 都 有 自己 的 优点 和 缺点 。 然 而 ， 
在 所 有 这 些 技术 中 存在 着 无 法 适应 所 有 应 用 的 共同 弱点 。 没 有 相应 理想 的 或 完美 的 分 类 
的 原因 是 ， 每 种 技术 最 初 均 是 为 了 在 某 些 假设 情况 下 解决 具体 问题 而 设计 的 。 

在 本 附录 中 ， 我 们 将 讨论 在 工具 中 使 用 的 数据 挖掘 技术 。 有 具体 来 说 ， 我 们 提出 了 马 
尔 可 夫 模 型 、SVM、ANN ARM, ， 还 有 多 分 类 的 问题 以 及 图 像 分 类 ， 这 是 图 像 挖 掘 的 一 
个 方面 。 我 们 开发 了 混合 模型 ， 以 提高 各 种 应 用 的 数据 挖掘 预测 精度 ， 即 人 侵 检测 pj 
页 预测 和 图 像 分 类 。 本 书 讨论 了 云 中 托管 的 一 些 其 他 应 用 程序 。 

本 附录 的 结构 如 下 。 在 B.2 节 中 ， 我 们 对 各 种 数据 挖掘 任务 和 技术 进行 概述 。 与 本 
书 内 容 相 关 的 技术 在 B. 2 至 B.6 节 中 讨论 。 特 别 是 ， 对 神经 网 络 、SVM 、 马 尔 可 夫 模 型 
和 ARM， 以 及 一 些 其 他 的 分 类 技术 进行 了 说 明 。 本 附录 总 结 在 B.7 T. 


B.2 数据 挖掘 任务 和 技术 概述 


在 讨论 数据 挖掘 技术 之 前 ， 我 们 提供 了 一 些 数据 挖掘 任务 (也 称 为 数据 挖掘 输出 ) 
的 概述 ， 然 后 我 们 再 来 讨论 这 些 技 术 。 一 般 来 说 ， 数 据 挖掘 任务 可 以 分 为 两 类 : 预测 和 
449 

















































































































外 云 计 算 开 发 与 安全 





描述 。 预 测 任务 基本 上 是 预测 项 目 是 否 属于 一 类 ， 描 述 任务 一 般 是 从 示例 中 提取 其 模 





式 。 最 突出 的 预测 任务 之 一 是 分 类 。 在 某 些 情况 下 ， 其 他 任务 ， 像 异常 检测 就 可 以 简化 
为 预测 任务 ， 预 测 某 一 特定 情况 其 是 否 异常 。 描 述 任 务 一 般 包括 建立 关联 和 形成 集群 。 





























因此 ， 分 类 、 异 常 检 测 、 关 联 和 形成 集群 均 可 被 认为 是 数据 挖掘 任务 。 














数据 挖掘 技术 可 以 是 预测 性 的 、 摘 述 性 的 或 两 者 兼 有 。 例 如 ， 神 经 网 络 可 以 执行 分 
类 以 及 聚 类 。 分 类 技术 包括 决策 树 、SVM 以 及 基于 记忆 的 推理 。 通 常 使 用 ARM 技术 进 
行 关联 。 链 接 分 析 也 可 以 建立 链接 之 间 的 关联 ， 并 预测 新 的 链接 。 聚 类 技术 包括 K 均 
值 聚 类 。 数 据 挖掘 任务 的 概述 ( 即 数据 挖掘 的 结果 ) 如 图 B.1 所 示 。 本 附录 中 将 要 讲 



































述 的 技术 ( 如 神经 网 络 、SVM) 如 图 B. 2 所 示 。 





异常 检测 : 约翰 | PROS: 划分 人 口 ， 


关联 : 约翰 和 MI 位 测 : erit aene (PA: LU 


詹姆斯 在 一 次 | | 到 B 到 C 到 D 的 xd X 国 的 人 ; RÉ 


分 子 的 形象 库 


TONER 链接 mpeg | | 六 加 的 大 对 飞机 | | REA TE 





图 B.1 数据 挖掘 任务 








数据 挖掘 技术 











分 类 : 决策 树 
支持 向 量 机 






RK: KHER 
类 、 神 经 网 络 


建立 关联 和 链 
接 的 关联 规则 挖掘 

















图 B.2 数据 控 据 技术 中 使 用 的 工具 








B.3 人 工 神经 网 络 


ANN 是 一 种 非常 有 名 的 、 强 大 的 、 健 壮 的 分 类 技术 ， 用 于 近似 实 值 、 离 散 值 和 向 











量 值 函 数 。 它 已 经 被 用 于 许多 领域 中 。 例 如 ， 解 释 视 觉 场景 、 语 音 识别 和 学 习 机 器 人 控 
制 策略 。ANN 模拟 人 脑 中 的 生物 神经 系统 。 这 种 神经 系统 由 大 量 高 度 相互 联系 的 处 理 单 
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EC 
位 (神经 元 ) 组 成 ， 它 们 共同 协作 ， 产 生 我 们 的 感受 和 反应 。ANN 像 人 一 样 学 习 。 人 
脑 中 的 学 习 过 程 涉 及 对 神经 元 之 间 突 触 连 接 的 调整 。 类 似 地 ，ANN 的 学 习 过 程 涉及 对 
节点 权重 的 调整 。 图 B. 3 显示 了 一 个 简单 的 神色 ATT, 称 为 感知 器 。 感 知 器 输入 x 是 
向 量 或 实 值 输入 。w 是 权重 向 量 ， 其 值 在 训练 后 确定 。 感 知 器 计算 输入 向 量 x 的 线性 组 
A [ILN (B.1)]。 如 下 






































1 Tw, +wx te +wx, 0 
buone ee > Mn (B.1) 
注意 ，w, 对 应 感知 器 输出 的 输入 向 量 分 量 *; 的 贡献 。 此 外 ， 为 了 感知 器 输出 1， 输 
A CX Lows) 的 加 权 组 合 必须 大 于 阔 值 mw。 
学 习 感知 器 涉及 选择 权重 的 值 ww ros + wx。。 最 初 ， 感 知 器 被 赋予 随 机 权 
重 值 。 











图 B.3 感知 器 


然后 感知 器 被 应 用 到 每 一 个 训练 实例 中 ， 每 当 一 个 例子 被 错误 分 类 时 ， 就 会 更 新 感 
知 器 的 权重 。 这 个 过 程 重复 很 多 次 ， 直 到 所 有 的 训练 样本 被 正确 分 类 。 根 据 以 下 规则 更 
新 权重 [ILA (B.2)]: 











e = w, + dw, (B.2) 


ôw, = W(t - 0)x, 
式 中 , 7 是 学 习 常 数 ; o 是 感知 器 计算 的 输出 ; c 是 当前 训练 样本 的 目标 输出 。 
单个 感知 器 的 计算 能 力 限 于 线性 决 














策 。 然 而 ， 感 知 器 可 以 作为 强大 的 多 层 du 
网 络 中 的 组 成 部 分 。 在 这 种 情况 下 ， 需 ARR. 
更 复杂 的 更 新 规则 来 训练 网 络 权 重 。 








在 这 项 工作 中 ， 我 们 采用 两 层 ANN， 每 


层 均 由 3 个 构建 块 组 成 (HE B.4), dés. DO UD 


我 们 使 用 反 向 传播 算法 来 学 习 权 重 。 反 DO pe 
向 传播 算法 尝试 使 用 最 小 化 二 次 方 误差 ad 
PRA 图 B.4 ”人工 神经 网 络 
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WWW 预测 中 的 一 个 典型 的 训练 示例 是 < [00,…,hi,h]] ,d>, PLA, uu, 
uk, VUE]? Æ ANN 的 输入 ，d 是 
目标 网 页 。 需 要 注意 的 是 ， 图 
B.5 中 ANN 的 输入 单元 是 用 户 最 
近 访 问 过 的 7 先前 页 ， 其 中 是 
网 页 让。 网 络 的 输出 是 一 个 布尔 
值 ， 而 不 是 概率 。 稍 后 我 们 将 看 
到 如 何 通过 在 ANN 输出 后 拟 合 
Sigmoid 函数 来 近似 输出 概率 。 近 
似 的 概率 输出 变 为 = f(o(D)) = 
pu, 其 中 是 输入 会 话 , pa =p(d 
Lk, avs E) 我 们 选择 Sigmoid 也 — 输入 向 区 隐藏 层 答 出 
数 [ 见 式 (B.3)] TEAR ABS 人 工 神经 网 络 的 设计 在 我 们 的 实验 中 的 应 用 
数 ， 以 便 ANN 可 以 处 理 非 线性 可 分 离 数据 ( 见 本 附录 参考 文献 [MITC97 ] ) 。 应 注意 
到 ， 在 我 们 的 ANN 设计 ( 见 图 B. 5). 中 ,我 们 在 每 个 构建 块 中 均 使 用 Sigmoid 传递 函 
数 。 在 式 (B.3) 中 , 7 是 网 络 的 输入 ，o 是 网 络 的 输出 ，w 是 权重 矩阵 ，e 是 Sigmoid 
PRAM 
























































o = a(w:l) 
1 (B. 3) 
o(y) = = 
l +e” 
1 2 
E(W) = TA > (ty = Oy)” (B. 4) 
keD ie output 
WwW; = w, + dw 
9E, (B. 5) 
Ow, = 一 £ 
ðw; 
9E, 
ôw,(n) =a + adw,,(n - 1) ( B. 6) 
w 








我 们 实施 用 于 训练 权重 的 反 向 传播 算法 。 反 向 传播 算法 采用 梯度 下 降 法 ， 以 试图 最 
小 化 网 络 的 输出 值 和 这 些 输 出 的 目标 值 之 间 的 二 次 方 误 差 。 所 有 网 络 输出 单元 的 误差 之 
和 在 式 (B.4) PEX, ÆR (B.4) 中 ， 输 出 是 网 络 中 的 输出 单元 集合 ，D 是 训练 集 ， 
tj 和 oi 是 与 第 i 个 输出 单元 和 训练 样本 相关 联 的 目标 和 输出 值 。 对 于 网 络 中 的 特定 权 
重 w;， 以 及 对 于 每 个 训练 示例 ， 如 式 (B.5) 所 示 ， 对 其 进行 更 新 ， 其 中 n 是 学 习 速 
率 ，w; 是 与 网 络 单元 j 的 第 i 个 输入 相关 联 的 权重 ( 详 见 本 附录 参考 文献 [ MITC97 ] ) 。 
从 式 (B.5) 可 以 看 出 ,使 用 梯度 下 降 法 计算 搜索 方向 6w， 该 梯度 下 降 法 保证 向 局 部 最 
小 值 收敛 。 为 了 减缓 收 化 ,我 们 向 权重 更 新 规则 添加 动量 ,使 得 权重 更 新 方向 Ow; (n) 
部 分 地 取决 于 上 一 次 迭代 Sw, (n -1) 中 的 更 新 方向 。 新 的 权重 中 的 更 新 方向 如 式 
(B.6) R, HF n EMMER, a 是 动量 常数 。 需 要 注意 的 是 ， 在 式 (B.6) 中 , 步 
452 




































































附 


长 略 大 于 式 (B.5)。 这 有 助 于 在 梯度 不 变 的 区 域 中 搜索 能 平滑 收 但 〈 见 本 附录 参考 文 


ik [MITC97] ) 。 











在 我 们 的 实验 中 ,我们 基于 数据 集中 类 的 分 布 来 动态 地 设置 步 长 n。 具 体 来 说 ， 当 


更 新 属于 低 分 布 类 的 训练 样本 时 ， 我 们 将 步 长 设置 为 大 值 ， 反 之 亦 然 。 这 是 因为 当 数据 
集中 类 的 分 布 变化 很 大 时 〈 例 如 ， 数 据 集 可 能 具有 5% 的 正 例 和 95% 的 负 例 ) ， 则 网 络 





权重 就 从 较 大 分 布 的 类 中 收敛 到 示例 ， 这 将 导致 绥 慢 收敛 。 此 外 ， 我 们 通过 应 用 

















动量 党 








Be [ILR (B.6)] 来 略微 调整 学 习 率 ， 以 加 快 网 络 的 收 义 ( 见 本 附录 参考 文献 


[MITC97] ) 。 


B.4 支持 向 量 机 





SVM 是 一 个 学 习 系 统 ， 它 在 一 个 高 维度 的 特征 











空间 中 使 用 线性 函数 的 假设 空间 ， 


用 最 优化 理论 的 学 习 算法 进行 训练 。Vapnik 等 人 引进 的 这 种 学 习 策 略 ( 见 本 附录 参考 
文献 [CRIS00]) 是 一 种 非常 好 的 方法 ,已 被 广泛 应 用 于 各 种 应 用 。SVM 中 的 基本 概念 




















是 超 平面 分 类 器 或 线性 可 分 性 。 为 了 实现 线性 可 分 性 ， 


























最 大 化 和 内 核 。 即 ， 将 输入 空间 映射 到 更 高 维度 的 空间 、 特 征 空 间 。 
对 于 二 进 制 分 类 ，SVM 问题 可 以 形式 化 为 式 (B.7)。 假 设 我 们 有 WN 个 训练 数据 点 


| (x, Fi Ja Ges 9o yer Cada * 





SVM 应 用 两 个 基本 思想 : 边 距 


其 中 xR Hye | +1，-1)。 我 们 想 找到 线性 分 


离 超 平面 分 类 器 如 式 (B.8) 所 示 。 此 外 ， 我 们 希望 这 个 超 平面 相对 于 两 个 类 来 说 ， 具 


有 最 大 的 分 离 边 距 (OLA B.6), K 


输入 空间 最 近 点 的 欧 几 里 得 距离 。 








图 B. 7 说 明了 为 什么 边 距 最 大 化 能 给 出 最 但 


数 边 距 或 短 边 距 在 几何 上 被 定义 为 ， 从 决策 边界 到 





EAT ES fi 


决 方案 的 直观 解释 。 在 图 B.7 的 A 部 分 中 ,我们 可 以 找到 特定 数据 集中 无 限 数 量 的 分 








隔 符 。 没 有 明确 的 理由 证 实 一 个 分 离 器 超过 男 一 个 分 离 器 。 


在 B 部 分 中 ,我 们 看 到 ， 


最 大 化 边 距 只 能 提供 一 个 厚度 分 离 器 。 这 样 的 解决 方案 证 明 可 以 达到 最 佳 的 泛 化 精度 ， 
即 对 于 未 知 的 预测 〈 见 本 附录 参考 文献 [ VAPN95 ] 、[VAPN98] , [ VAPN99 ] ) 。 











图 B.6 SVM 中 的 线性 分 离 
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图 B.7 支持 最 大 边 距 的 SVM 分 隔 符 


— l r 
minimize,, py gw w 


(B.7) 
subject to y,(w * x, - b) 21 

f(x) = sign(w * x — b) (B. 8) 

N N 
maximizeL(w,b,a) = qu - Y ay, (w ex, -b)+ Ya, (B.9) 

pet i=l 

N 

f(x) = sign(wx - b) = sign[ Y oy (x + x, - 0)] (B. 10) 


应 注意 到 , XC (B.8) RTA x 的 预测 标签 之 外 ,还 有 计算 点 x 的 功能 边 距 的 符 
号 ， 即 % 的 函数 边 距 等 于 wx -0。 

SVM 优化 问题 是 一 个 凸 二 次 规划 问题 Ew, b) 中 的 凸 集 方程 式 (B.7) 。 相 对 于 
a， 我 们 可 以 像 式 (B.9) 那样 解决 沃 尔 夫 二 进 制 ， 受 到 L(w, b, o) 相对 于 原始 变量 w 
和 的 梯度 消失 的 约束 ，a; =0。 原 始 变量 从 L(w, b, a) 中 消除 ( 详 见 本 附录 参考 文献 
[CRIS00] ) 。 当 我 们 求解 时， 我 们 可 以 得 到 w = YD = ay, ， 我 们 可 以 使 用 式 
(B. 10) 对 一 个 新 对 象 x 进行 分 类 。 需 要 注意 到 ， 训 练 矢 量 仅 以 点 积 的 形式 出 现 ， 并 且 
每 个 训练 点 存在 拉 格 朗 日 乘 数 a,， 这 反映 了 数据 点 的 重要 性 。 当 找到 最 大 边界 超 平面 
时 ， 只 有 最 靠近 超 平面 的 点 将 具有 a =0 特征 ， 这 些 点 称 为 支持 向 量 。 所 有 其 他 点 将 具 
有 a, =0 特征 (ILKI B. 8a) 。 这 意味 着 只 有 最 靠近 超 平面 的 点 才能 给 出 假设 /分 类 器 的 
表示 。 这 些 最 重要 的 数据 点 作为 支持 向 量 。 它 们 的 值 也 可 用 于 给 出 关于 假设 /分 类 器 的 
可 靠 性 的 独立 边界 〈 见 本 附录 参考 文献 [BART99 ] ) 。 

KI B. 8a 显示 了 两 个 类 及 其 边界 ， 即 边 距 。 支 持 向 量 由 实体 对 象 表示 ， 而 空 对 象 是 
非 支持 向 量 。 需 要 注意 的 是 ,， 边 距 仅 受 支 持 向 量 的 影响 。 也 就 是 说 ， 如 果 我 们 删除 或 添 
加 空 对 象 ， 则 边 距 就 不 会 改变 。 同 时 ， 固 体 对 象 的 任何 更 改 〈 添 加 或 删除 对 象 ) 都 可 
能 会 更 改 边 距 。 图 B. 8b 显示 了 在 边缘 区 域 添 加 对 象 的 效果 。 我 们 可 以 看 到 ， 添 加 或 删 
除 远离 边 的 对 象 ， 例 如 数据 点 1 或 -2， 不 会 改动 边 距 。 但 是 ， 添 加 和 /或 删除 边 附近 的 
对 象 ， 例 如 数据 点 2 和 /或 -1， 就 会 创建 新 的 边 距 
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a) b) 


图 B.8 a) 支持 向 量 和 非 支 持 向 量 的 值 b) 增加 新 数据 点 的 效果 





B.5 马尔 可 夫 模 型 


最 新 最 先进 适 于 网 上 冲浪 的 一 些 预测 模型 是 利用 马尔 可 夫 模 型 来 开发 的 〈 见 本 附 
录 参 考 文献 [YANG01 ] 、[PIRO96]) 。 对 于 这 些 预测 模型 ， 上 网 者 访问 网 页 中 的 序列 
通常 被 认为 是 马尔 可 夫 链 ， 然 后 将 其 作为 输入 。 马 尔 可 夫 模 型 的 基本 概念 是 ， 它 根据 以 
前 的 动作 或 动作 的 结果 预测 下 一 个 动作 。 动 作 可 能 意味 着 不 同 的 应 用 程序 中 具有 不 同 的 
东西 。 为 了 更 好 地 说 明 ， 我 们 将 讲述 面向 WWW 预测 应 用 的 特定 活动 。 在 WWW 预测 
中 ， 下 一 个 动作 对 应 于 要 遍历 的 下 一 个 页 面 的 预测 。 以 前 的 动作 对 应 于 要 考虑 的 以 前 的 
网 页 。 在 以 前 考虑 的 行动 数量 的 基础 上 ， 马 尔 可 夫 模 型 可 以 有 不 同 的 顺序 。 







































































pr(P,) = pr(S,) (B.11) 
pr(P,| P,) = pr(S, = P,| S = P,) (B. 12) 
pr Pel Pos Py) = pr Sy 2 Py | Sy = Po Paya (B. 13) 














零 阶 马 尔 可 夫 模 型 是 状态 (或 网 页 ) 的 无 条 件 概 率 [ 见 式 (B.11)]。 在 式 
(B.11) "P, P, 是 网 页 ，S, 是 相应 的 状态 。 可 以 通过 采用 页 面 到 页 面 的 转移 概率 或 
[P,, Po}, (P3, Pal, on, [Pras Pi} 的 n-gram 概率 来 计算 一 阶 马 尔 可 夫 模型 ， 如 
式 (B.12)。 

接 下 来 ， 我 们 给 出 了 说 明 马 尔 可 夫 模 型 不 同 阶 数 的 例子 ， 以 及 怎样 预测 。 

范例 : 

想象 一 下 ， 网 站 有 6 个 网 页 : P P, Py. P, P, 和 P,。 假 设 我 们 有 用 户 会 话 ， 
如 表 B. 1 所 示 。 表 B. 1 描述 了 该 网 站 中 许多 用 户 的 网 页 导航 。 图 B. 9 所 示 为 一 阶 马尔 
可 夫 模 型 ， 其 中 根据 用 户 执行 的 最 后 一 个 动作 〈 即 最 后 一 页 ) ， 预 测 下 一 个 动作 。 状 态 
S 和 下 分 别 对 应 于 初始 状态 和 最 终 状态 。 每 个 转换 的 概率 是 通过 遍历 状态 序列 次 数 与 锚 
国 状 态 访 问 次 数 的 比率 来 估计 的 。 在 图 B. 8 中 的 每 个 拱 形 旁 边 ， 第 一 个 数字 是 该 转换 的 
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频率 ， 第 二 个 数字 是 转移 概率 。 例 如 ， 由 于 用 户 从 第 2 页 转 到 第 3 页 的 访问 次 数 为 3， 

对 第 2 页 的 访问 次 数 是 15 ， 转 换 (PL - P,) 的 转移 概率 为 0.2 ( 即 , 0.2 = 3/15), 
表 B.1 用 户 会 话 及 其 频率 的 集合 





















会 话 频率 
Pi P, $ P, 5 
P, P, Pe 1 
Ps, Py, Pe 6 
P. P, P, 3 
(9.1.0) Pe (3,10) 
(9,0.6) 
(3,0.2) 


Jann (x) - em. C) 
一 -一 一 > 
(6.0.4) m (5.0.33) 


图 B.9 一 阶 马尔 可 夫 模 型 


需要 注意 的 是 ， 转 移 概 率 用 于 解决 预测 问题 。 例 如 ,假设 用 户 已 经 访问 了 P,， 那 
么 接 下 来 访问 的 最 可 能 的 页 面 是 P。。 那 是 因为 从 P, 到 P. 的 转移 概率 是 最 高 的 。 

还 应 注意 的 是 ， 某 些 页 面 的 转移 概率 可 能 是 不 可 用 的 。 例 如 ， 从 P, 到 P. 的 转移 概 
率 不 可 用 ， 因 为 没有 用 户 在 P, 之 后 访问 过 P,。 因 此 ， 这 些 转移 概率 设置 为 零 。 类 似 
Hh, K 阶 马尔 可 夫 模 型 是 在 考虑 了 用 户 执 行 的 最 后 次 动作 之 后 ,计算 预 测 的 式 
(B.13), Æ WWW 预测 中 ,第 K 阶 马尔 可 夫 模 型 是 考虑 到 其 之 前 的 -1 页 访问 时 ,用 
PIE k 页面 的 概率 。 

图 B. 10 所 示 为 对 应 于 表 B. 1 的 二 阶 马尔 可 夫 模 型 。 在 二 阶 模型 中 ,我 们 考虑 最 后 
2 页 。 转 移 概率 以 类 似 的 方式 计算 。 例 如 ， 由 于 用 户 从 状态 (P, P) 到 状态 (P, 
P.) 的 次 数 为 1， 转移 (P,, P,) 到 (P,，P,) 的 转移 概率 为 0.16 (Bl, 0.16 = 1x 
1/6)。 转 移 概 率 用 于 预测 。 例 如 ， 考 虑 到 用 户 访问 了 P 和 P,， 接 下 来 他 /她 最 有 可 能 
访问 已 ， 因 为 从 状态 (P, P,) 到 状态 (P,，P,) 的 转移 概率 大 于 从 状态 (P,, P.) 
到 状态 (Pa, PO 的 转移 概率 。 

马尔 可 夫 模 型 的 阶 数 与 滑动 窗口 有 关 。 天 阶 马尔 可 夫 模 型 对 应 于 大 小 为 天 -1 的 滑 
动 窗口 。 

应 注意 到 ， 还 有 男 一 个 概念 类 似 于 滑动 窗口 概念 ， 即 跳 数 。 在 本 论文 中 ,我们 可 以 
互 换 使 用 跳 数 和 滑动 窗口 。 

iE WWW 预测 中 ， 马 尔 可 夫 模 型 是 基于 n - gram 的 概念 而 构建 的 。n — gram 可 以 表 
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(5.0.84) 
图 B. 10 ”二 阶 马 尔 可 夫 模 型 
TRA <x, %, 7, x, > 形式 的 元 组 ， 以 描绘 用 户 浏览 网 站 页 面 的 点 击 次 数 。n - gram 


的 每 个 组 件 都 具有 特定 的 页 面 ID 值 ， 该 值 反 映 了 特定 用 户 浏览 网 页 的 路 径 。 例 如 ， 某 
J£ HIP! U A n-gram <P，P，P,，P, > 表示 用 户 U 已 经 以 序列 访问 了 页 面 10, 21、 
4 和 最 后 的 页 面 12。 


B.6 关联 规则 挖掘 


关联 规则 是 一 种 数据 挖掘 技术 ,已 成 功 应 用 于 发 掘 相关 事务 。 关 联 规则 技术 根据 项 目 
集 在 不 同事 务 中 能 同时 出 现 ， 来 找到 项 目 集 之 间 的 关系 。 具 体 来 说 ，ARM 会 发 现 这 些 项 
目 集中 的 频繁 模式 (规律 性 )。 例 如 ， 超 级 商店 一 起 购买 的 商品 是 什么 ?下 面 简要 介绍 一 
下 ARM。 有 关 更 多 细节 ， 请 参见 (本 附录 参考 文献 [ AGRA93 ] 、[ AGRA94] ) 。 
假设 我 们 的 数据 库 中 有 m 个 项 目 , 将 T= |i,is,…,i,| 定 义 为 所 有 项 目的 集合 。 事 
务 7T 是 一 组 项 目 , ff TCI, 令 D 是 数据 库 中 所 有 事务 的 集合 。 事 务 7 包含 X， 如 果 苇 
CT 和 XCI， 关 联 规则 就 是 > 了 形式 的 含义 ， 其中, XCI, YCIMXNY =p, SRM 
则 有 两 个 参数 ， 置 信和 度 和 支持 度 。 如 果 D 中 c% 的 事务 包含 Y[ 即 , co pr(Y 1 X) ] WH 
W R=XY ABE co WRD 中 s% 的 事务 包含 X 和 了 Y[ 即 = pr(X, Y) ], WAR 
有 置信 和 度 ;。 挖 掘 关联 规则 的 问题 定义 为 :给 定 一 组 事务 D， 我 们 希望 生成 满足 置信 和 度 
和 大 于 最 小 置信 度 (0) 以 及 最 小 支持 度 minsup (0) 的 所 有 规则 。 有 几 种 有 效 的 算法 
可 以 找到 关联 规则 。 比 如 ATS 算法 ( 见 本 附录 参考 文献 [ AGRA93 ] 、 [AGRA94]) 、 
SETM 算法 ( 见 本 附录 参考 文献 [ HOUT95 ]) 和 AprioriTid ( 见 本 附录 参考 文献 
[ AGRA94 ] ) 等 关联 规则 。 

在 Web 事务 的 情况 下 ， 我 们 使 用 关联 规则 来 发 现 用 户 之 间 的 网 页 导航 模式 。 这 将 
有 助 于 提前 缓存 页 面 ， 并 减少 页 面 的 加 载 时 间 。 此 外 ， 发 现 网 页 导航 模式 有 助 于 个 性 
化 。 事 务 是 从 Web 服务 器 日 志 中 获取 被 捕捉 到 的 单 击 流 数 据 。 

在 许多 应 用 中 ,使 用 ARM 有 一 个 主要 问题 。 首 先 ， 使 用 全 局 最 小 支持 度 (minsup) 
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的 问题 是 ， 由 于 极 少 的 单 击 量 ， 即 很 少 访问 的 网 页 ， 其 不 会 被 包含 在 频繁 项 目 集中 ， 因 
为 它 不 能 获得 足够 的 支持 。 一 个 解决 方案 是 设 定 一 个 非常 小 的 支持 度 阀 值 ， 然 而 ， 这 样 
的 话 我 们 最 终 会 得 到 一 个 非常 大 的 频繁 项 目 集 ， 这 在 计算 上 是 难以 处 理 的 。 刘 等 人 
( 见 本 附录 参考 文献 【LIU99] ) 讨论 了 对 不 同 项 目 使 用 不 同 支持 阐 值 的 挖 据 技术。 指定 
多 个 浆 值 允许 将 罕见 的 事务 (可 能 非常 重要 ) 包含 在 频繁 项 目 集 中 。 其 他 问题 可 能 会 
随 应 用 程序 本 身 的 运行 而 出 现 。 例 如 ,在 WWW 预测 的 情况 下 ， 为 每 个 用 户 记 录 会 话 。 
会 话 可 能 有 几 十 个 单 击 流 (有 时 候 为 数 百 个 会 话 的 持续 时 间 ) 。 将 每 个 会 话 用 作 单 一 事 
务 将 不 起 作用 ， 因 为 很 少 发 现 频繁 重复 (HAR) 的 两 个 会 话 。 因 此 ， 它 不 会 达到 甚 
至 非常 高 的 支持 度 阔 值 (minsup) 。 这 需要 将 每 个 会 话 分 成 许多 子 序列 。 一 种 常见 的 方 
法 是 使 用 尺寸 为 w 的 滑动 窗口 。 例 如 ,假设 我 们 使 用 滑动 窗口 w=3 来 中 断 会 话 S= 
«A,B, C, D, E, F> ， 则 我 们 将 得 到 子 序列 S'= | <A, B, C>, «B, C, D>, 
«C, D, E», «D, E, F>}, 使 用 窗口 w HAW S 的 子 序列 的 总 数 是 长 度 (S) -w 
为 了 在 用 户 会 话 中 预测 活动 的 下 一 页 ， 我 们 使 用 活动 会 话 的 滑动 窗口 ， 并 忽略 以 前 的 页 
mo 例如， 如 果 当 前 会 话 是 <4,， B,C > ， 并 且 用 户 将 引用 页 面 D， 则 新 的 活动 会 话 将 
使 用 滑动 窗口 3 变 为 <B，C, D > 。 应 注意 到 ， 页 面 4 被 删除 ， 且 <B,，C,，D > 将 用 于 
预测 。 这 样 做 的 理由 是 因为 大 多 数 用 户 在 浏览 网 页 时 ， 只 是 试图 找到 所 需 的 信息 ， 而 这 
种 使 用 用 户 浏 览 历史 中 的 最 近 部 分 来 生成 建议 /预测 的 做 法 ， 是 最 适合 这 种 情况 的 (IL 
本 附录 参考 文献 [ MOBA01]). 

Mobasher 等 人 ( 见 本 附录 参考 文献 [ MOBA01] ) 讨论 了 一 个 将 活动 用 户 会 话 与 数 
据 库 中 的 频繁 项 目 集 相 匹配 的 推荐 引擎 ， 并 预测 用 户 最 可 能 访问 的 下 一 页 。 引 擎 的 工作 
原理 如 下 。 给 定 大 小 为 w 的 活动 会 话 ， 引 擎 查找 长 度 为 w+1 的 所 有 频繁 项 目 集 ， 其 满 
足 一 些 最 小 支持 度 (minsup) 并 包含 当前 活动 会 话 。 活 动 会 话 4 的 预测 基于 相应 关联 规 
则 的 置信 度 (Y) XKAN xz 的 置信 度 (p) MAW (Xz) =a (XUz) /o 
(X)， 其 中 z 的 长 度 为 1。 第 p 页 被 推荐 /预测 为 活动 会 话 4， 当 且 仅 当 

VV, R 中 的 频繁 项 目 集 

length(R) = length(V) = length(A) + 1^ 

R= AU{p} 人 

V=AU {gba 

$(A > p) »$ (A  q) 

引擎 使 用 一 个 称 为 频繁 项 目 集 图 的 循环 图 。 该 图 是 本 附录 参考 文献 [ AGRAO1] 的 
树 投影 算法 中 所 使 用 的 词典 树 的 扩展 。 图 形 按 层次 组 织 。 级 别 1 中 的 节点 具有 大 小 为 1 
的 项 目 集 。 例 如 ， 级 别 1 和 2 中 节点 的 大 小 ( 即 ， 对 应 于 这 些 节 点 的 项 目 集 的 大 小 ) 分 
别 为 1 和 2。 图 的 根 ， 级 别 0 是 对 应 于 空 项 目 集 的 空 节点 。 如 果 XCY， 则 级 别 1 中 的 节 
点 了 链接 到 级 别 1+1 中 的 节点 Y。 为 了 进一步 解释 该 过 程 ， 假 设 我 们 具有 以 下 示例 Web 
事务 ,涉及 第 1、2、3、4 和 5 页 ， 如 表 B. 2 所 示 。 先 验算 法 使 用 minsup = 0. 49 生成 表 
B. 3 中 的 项 目 集 。 频 繁 项 目 集 图 如 图 B. 11 所 示 。 

假设 我 们 使 用 大 小 为 2 的 滑动 窗口 ， 当 前 活动 会 话 4 = <2，3 > 。 为 了 预测 /推荐 
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下 一 页 ， 我们 首先 从 频繁 项 目 集 图 中 的 第 2 级 开始 ， 并 提取 链接 到 A 的 3 级 中 的 所 有 项 
目 集 。 从 图 B.11， 节 点 |2, 3} 链接 到 11, 2, 3} 和 12, 3, 5} WA: 
y(12,3] 1) 20(11,2,3]/7012,3] ) =5/5 =1.0 
y(12,3] 55) 2o0(12,3,5]/7012,3|] ) 24/5 20.8 
表 B.2 Web 事务 示例 
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事务 ID 项 目 
TI 1,2,4,5 
T2 1, 2, 5, 3, 4 
T3 1, 2, 5,3 
T4 2, 5, 2, 1, 3 
T5 4, 1,2,5,3 
T6 1, 2, 3,4 
T7 4, 5 
T8 4,5, 3,1 
XX B.3 由 Priori 算法 生成 的 频繁 项 集 
尺寸 1 尺寸 2 尺寸 3 尺寸 4 
{2} (6) 12, 3| (5) 12, 3, 1} (5) 12,3, 1, 5} (4) 
{3} (6) 12, 4| (4) 12, 3, 5} (4) 
{4} (6) i12, 1} (6) 12, 4, 1} (4) 
{1} (7) 12, 5| (5) i2, 1, 5} (5) 
{5} (7) 13, 4| (4) 13, 4, 1} (4) 
13, 1} (6) 13, 1, 5} (5) 
13, 5| (5) i4, 1, 5} (4) 
14, 1} (5) 
14, 5} (5) 
{1, 5} (6) 





























推荐 的 页 面 是 1， 因 为 它 的 置信 度 更 大 。 需 要 注意 的 是 ， 在 推荐 引擎 中 ， 不 考虑 单 
击 流 的 顺序 ， 也 就 是 说 ， 会 话 <1, 2, 4> 和 <1, 4, 2 > 之 间 没 有 区 别 。 这 是 该 系统 的 
缺点 ， 因 为 访问 页 面 的 顺序 可 能 包含 关于 用 户 网 页 导航 模式 的 重要 信息 。 





























































































































图 B.11 频繁 项 目 集 曲 线 图 
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B.7 多 类 问题 


大 多 数 分 类 技术 用 以 解决 二 分 类 问题 。 二 分 类 技术 羞 加 使 用 ， 可 以 解决 多 分 类 问 
题 。 这 种 泛 化 有 两 个 基本 方案 ， 即 一 对 一 和 一 对 全 部 。 为 了 避免 元 余 ， 我 们 将 只 给 出 
SVM 的 泛 化 。 

B.7.1 一 对 一 

一 对 一 方案 为 每 对 类 创建 一 个 分 类 器 。 每 对 分 类 器 (0, D 的 训练 集 仅 包括 属于 i 
类 或 7 类 的 那些 实例 。 一 个 新 的 实例 x 属于 大 多 数 分 类 器 对 认可 的 那 一 类 。 预 测 决定 来 
自 于 多 数 投票 技术 。 若 是 数据 集中 的 类 数 ， 那 么 就 有 n(n -1) /2 个 分 类 器 要 计算 。 
显然 ， 该 方案 的 缺点 是 我 们 需要 生成 大 量 的 分 类 器 ， 特 别 是 如 果 训 练 集中 有 大 量 的 类 。 
例如 ， 如 果 我 们 有 一 个 1000 个 类 的 训练 集 ， 我 们 需要 499500 个 分 类 器 。 男 一 方面 ， 每 
个 分 类 器 的 训练 集 很 小 ， 因 为 我 们 要 排除 不 属于 该 对 类 的 所 有 实例 。 

B.7.2 一 对 全 部 

一 对 全 部 方案 为 数据 集中 的 每 个 类 创建 一 个 分 类 器 。 训 练 集 被 预 处 理 ， 使 得 对 于 分 
类 器 j 属 于 类 j 的 实例 被 标记 为 类 (1), 不 属于 类 j 的 实例 被 标记 为 类 ( -1)。 在 一 
对 全 部 方案 中 ， 我 们 计算 n 个 分 类 器 ， 其 中 是 用 户 访问 的 页 面 数 (在 每 个 会 话 结 
时 )。 通 过 将 新 的 实例 x 分 配给 类 ， 其 分 类 器 输出 最 大 正 值 ( 即 最 大 边际 )， 如 式 
(B.15) 所 示 。 我 们 可 以 计算 点 x 的 边界 ， 如 式 (B.14) 所 示 。 需 注意 的 是 ， 推 荐 / 预 
测 页 面 是 该 页 面 中 边 距 值 的 符号 [参见 式 (B. 10) ] 。 





































































































N 
f(x) = wx -b = Day, (x x, - b) (B. 14) 
prediction(x) = argmax, suf, (x) ( B. 15) 
fest (B.15) P, M 是 类 的 数量 ,x = <x, x, cc, x, > 是 用 户 会 话 , 上 是 将 类 i 











与 其 余 类 分 隔 的 分 类 器 。 式 (B. 15) 中 的 预测 决定 说 明了 ， 与 测试 示例 * 最 远 的 分 类 
器 为 上 。 这 可 能 被 解释 为 上 具有 最 大 的 分 离 能 力 ， 在 所 有 其 他 分 类 融 中 ， 将 x 与 其 余 类 
分 离 。 

与 一 对 一 方案 相 比 ， 该 方案 (一 对 一 全 部 ) 的 优点 在 于 它 具 有 较 少 的 分 类 器 。 在 
另 一 方面 ， 训 练 集 的 大 小 方面 是 一 对 全 部 比 一 对 一 的 方案 大 ， 因 为 我 们 要 使 用 整个 原始 
训练 集 来 计算 每 个 分 类 。 


B.8 图 像 挖 掘 


随 着 数字 图 像 和 计算 机 存储 技术 的 发 展 ， 每 天 都 会 生成 并 保存 大 量 的 数字 图 像 。 数 
字 图 像 的 应 用 迅速 渗透 到 许多 领域 和 市 场 ， 包 括 商 业 和 新 闻 媒体 照片 库 、 科 学 和 非 照相 
图 像 数 据 库 ， 以 及 医学 图 像 数 据 库 。 因 此 ， 我们 面临 着 一 个 令 人 叶 缩 的 问题 ， 即 要 组 织 
和 访问 这 些 海量 可 用 图 像 。 人 们 非常 希望 一 个 有 效 的 图 像 检 索 系 统 能 从 数据 库 中 查找 特 
定 实体 的 图 像 。 该 系统 可 以 有 效 地 管理 大 量 图 像 ， 高 速 响应 用 户 的 查询 ， 提 供 最 少 的 无 
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关 信 息 (高 精度 ) ， 并 确保 相关 信息 不 被 忽视 (高 回调 ) 。 
为 了 做 出 这 样 的 系统 ， 人 们 尝试 了 许多 不 同 的 方法 。 在 20 世纪 90 年 代 初 ， 由 于 出 
现 了 大 量 的 图 像 集合 ， 人 们 讨论 了 基于 内 容 的 图 像 检 索 (CBIR), CBIR 基于 
低级 图 像 特征 (如 颜色 直方 图 、 纹 理 、 形 状 和 空间 布局 ) 的 相似 性 来 计算 机 
而 ， 问 题 是 视觉 相似 性 不 是 语义 相似 性 。 低 级 视觉 特征 与 语义 合 义 之 间 存 在 差距 。 所 请 
的 语义 差距 是 大 多 数 CBIR 方法 需要 解决 的 主要 问题 。 例 如 ，CBIR 系统 可 以 用 “ 红 玫 
的 图 像 来 回答 对 “ 红 球 ”的 查询 请 求 。 如 果 我 们 用 关键 字 对 图 像 进 行 注 释 ， 则 发 
布 图像 数 据 存储 库 的 典型 方法 就 是 创建 一 个 基于 关键 字 的 查询 接口 寻 址 到 图 
如 果 所 有 图 像 都 具有 详细 和 准确 的 描述 ， 则 基于 当前 强大 的 纯 文本 搜索 技术 ， 
将 是 方便 的 。 如 果 这 些 搜索 技术 的 描述 /注释 包含 用 户 指定 的 关键 字 的 某 些 组 合 ， 那 么 
它们 将 检索 图 像 。 然 而 ， 主 要 的 问题 是 大 多 数 图 像 没 有 注释 。 手 动 注释 大 量 图 像 是 一 个 
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视觉 内 容 / 
目 关 性 。 然 




















像 数 据 库 。 
图 像 检索 





费力 、 且 容易 出 错 的 主观 过 程 ， 因 为 即使 它们 不 包含 用 户 指定 的 关键 字 ， 但 许多 图 像 要 





包含 所 需 的 语义 信息 。 此 外 ， 基 于 关键 字 的 搜索 是 有 用 的 ， 尤 其 对 于 知道 什么 样 的 关键 





字 用 











标 时 ， 不 知道 数据 库 中 是 什么 ， 并 











于 索引 图 像 的 用 户 ， 因 此 他 们 很 容易 制定 出 查询 语句 。 然 而 ， 当 用 户 没 有 明确 的 卓 








有 问题 的 。 
图 像 挖掘 是 比 CBIR 系统 中 检索 相关 图 像 更 具 挑 战 性 的 研究 问题 。 图 像 挖 掘 的 目标 



























































方面 。 

B. 8.1 特征 选择 
通常 ， 保 存在 数据 库 中 的 数据 具有 明确 定义 的 语义 。 例 如 ， 数 字 或 结构 化 数据 条 
相 比 之 下 ， 具 有 不 完整 定义 语义 的 数据 是 非 结 构 化 数据 。 例 如 ， 图 像 、 音 频 和 视频 


目 。 




















是 具有 不 明确 语义 的 数据 。 在 图 像 处 理 领 域 ,图像 由 导出 的 数据 或 特征 (Cl 











且 不 知道 域 中 涉及 什么 样 的 语义 概念 时 ， 这 种 方法 是 











是 找到 一 个 图 像 模 式 ， 这 对 于 给 定 的 一 组 图 像 是 很 重要 的 ， 这 有 助 于 了 解 高 级 语义 概 


念 /语义 描述 与 低级 视觉 特征 之 间 的 关系 。 我 们 阐述 的 重点 是 特征 选择 和 图 像 分 类 等 





nee. Be 


理 和 形状 ) 表示 。 这 些 特征 中 的 许多 具有 多 个 值 ( 例如， 颜色 直方 图 、 时 间 描 述 )。 当 
人 们 生成 这 些 导出 的 数据 时 ， 它 们 通常 就 会 产生 尽 可 能 多 的 特征 ， 因 为 它们 不 知道 哪个 
特征 更 相关 。 因 此 ， 导 出 图 像 数 据 的 维 数 通常 很 高 。 实 际 上 ， 某 些 所 选 特 生 
复 ， 甚 至 可 能 与 该 问题 无 关 。 被 包含 的 不 相关 或 重复 的 信息 被 称 为 噪声 。 这 些 问题 被 称 


为 



































“维度 诅咒 ”"。 特 征 选择 是 寻找 特征 中 最 佳 子 集 的 研究 课题 。 在 本 论文 中 ， 





细 讨 论 这 种 诅咒 和 特征 选择 。 
我 们 开发 了 一 种 基于 包装 器 的 同步 特征 加 权 和 聚 类 算法 。 夷 类 算法 将 相似 的 图 像 段 





基础 上 ， 我 们 对 图 像 段 的 特 得 


重 。 


捆绑 在 一 起 ， 并 生成 有 限 的 视觉 符号 集 ( 即 ，blob - token) 。 在 直方 
F 分 配 不 同 的 权重 ， 而 不 是 去 除 其 中 的 一 些 。 特 征 权 重 评估 
被 包 庄 在 聚 类 算法 中 。 在 算法 的 每 次 迭代 中 ， 基 于 素 类 结果 重新 评估 












































重新 评估 的 特征 权重 将 影响 下 一 次 迭代 中 的 聚 类 结果 。 











B.8.2 自动 图 像 注释 





自动 图 像 注释 是 关于 对 象 识别 的 研究 ， 其 中 涉及 尝试 识别 图 像 中 的 对 象 ， 











F 可 能 会 重 


我 们 将 详 


图 分 析 和 卡 方 值 的 


图 像 段 的 特征 权 





并 且 根 据 
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) 去 计算 开发 与 安全 








对 象 的 语义 生成 图 像 的 描述 。 如 果 可 以 为 图 像 生成 准确 和 完整 的 语义 描述 ， 那 么 我 们 就 









































过 ， 自 动 图 像 注释 问题 目前 还 没有 解决 ， 也 许 这 个 问题 是 不 可 能 解决 的 。 











可 以 在 图 像 数 据 库 中 存储 该 描述 。 基 于 文本 描述 ,通过 应 用 许多 现 有 的 基于 文本 的 搜索 
技术 ， 可 以 容易 且 有 效 地 实现 图 像 DBMS 的 更 多 功能 (例如 浏览 、 搜 索 和 查询 )。 不 


然而 ， 在 某 些 子 域 中 ,仍然 可 以 获得 一 些 有 趣 的 结果 。 许 多 统计 模型 已 经 发 布 并 用 
于 图 像 注释 。 这 些 模型 中 的 一 些 实例 已 经 考虑 了 特征 维度 ， 并 应 用 奇异 值 分 解 (Singu- 
lar - Value Decomposition, SVD) 或 主 成 分 分 析 (Principle Component Analysis, PCA) 来 
减 小 维 数 。 但 他 们 没有 考虑 特征 选择 或 特征 权重 。 我 们 基于 翻译 模型 (Translation Mod- 







































































el, TM) 开发 了 一 个 用 于 图 像 注释 的 新 框架 。 在 我 们 的 方法 中 ， 我 们 应 用 了 加 权 特 征 
































选择 算法 并 将 其 能 入 到 图 像 注释 框架 中 。 我 们 的 加 权 特 征 选择 算法 提高 了 视觉 令 牌 的 质 








量 ， 并 能 生成 更 好 的 图 像 注释 。 
B. 8.3 图 像 分 类 

















图 像 分 类 是 一 个 重要 的 领域 ， 特 别 是 在 医疗 领域 。 因 为 它 有 助 于 管理 大 型 医学 图 像 数 
据 库 ， 并 且 在 现实 临床 环境 中 具有 很 大 的 诊断 辅助 潜力 。 下 面 描述 我 们 的 CLEF 图 像 检 索 
任务 的 实验 。CLEF 医学 图 像 数据 集 的 大 小 不 均衡 ， 这 对 所 有 分 类 算法 来 说 都 是 一 个 非常 
严重 的 问题 。 为 了 解决 这 个 问题 ,我 们 通过 生成 子 窗口 重新 采样 数据 。K 最 近邻 (K Nea- 






































rest Neighbor, KNN) 算法 、 距 离 加 权 KNN 、 模 糊 KNN 、 最 近 的 原型 分 类 器 和 基于 订 

















论 的 KNN 正在 被 研究 。 结 果 表 明 ， 基 于 证 据 的 KNN 具有 基于 分 类 精度 的 最 佳 必 
B.9 总 结 和 展望 





Lab 
EHE o 


F 据 理 


在 本 附录 中 ， 我 们 首先 提供 了 各 种 数据 挖掘 任务 和 技术 的 概述 ， 然 后 讨论 了 我 们 在 
本 书 中 使 用 的 一 些 技 术 。 这 些 包括 神经 网 络 、SVM 和 ARM。 众 多 的 数据 挖掘 技术 已 被 
设计 和 开发 ， 其 中 许多 技术 都 被 用 作 商 业 工 具 。 其 中 几 个 技术 是 一 些 基本 分 类 、 聚 类 和 
ARM 技术 的 变 体 。 目 前 主要 的 挑战 之 一 是 为 各 种 应 用 选择 合适 的 技术 。 在 这 方面 ， 我 
们 仍然 需要 更 多 的 基准 测试 和 性 能 研究 。 此 外 ， 选 择 的 技术 应 有 更 少 的 误 报 和 漏 报 。 虽 


















































然 未 来 仍 有 许多 工作 要 做 ， 但 在 过 去 10 年 的 进步 也 是 非常 值得 肯定 的 。 
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附录 C 数据 库 系统 中 的 访问 控制 


C.1 概述 





























由 于 本 书 中 大 部 分 内 容 涉及 了 云 数 据 管理 和 云 数 据 安全 管理 ， 因 此 我 们 将 对 数据 管 


理 系 统 的 访问 控制 提供 比较 全 面 的 概述 。 特 别 是 ， 我 们 要 讨论 安全 策略 以 及 执行 数据 库 


T 








系统 中 的 策略 。 我 们 将 重点 关注 放 在 自主 安全 策略 上 ， 有 关 数 据 安 全 管理 的 更 多 详细 信 


息 ， 请 参见 本 附录 参考 文献 [ FERR00] 和 [ THUROS], 











最 流行 的 自主 安全 策略 是 访问 控制 策略 。20 世纪 60 年 代 人 们 对 操作 系统 的 访问 控 











制 策略 进行 了 研究 ， 然 后 在 20 世纪 70 年 代 人 们 对 数据 库 系统 进行 了 研究 。 两 个 著名 的 








数据 库 系 统 System R FU INGRES 是 调查 数据 库 系统 访问 控制 的 首选 之 一 (参见 本 附录 参 








考 文献 [GRIF76] 和 [STON74] ) 。 此 后 已 经 报告 了 访问 控制 策略 的 几 个 变 体 ， 











以 及 其 











他 自主 策略 (包括 管理 策略 )。 我 们 还 在 自主 策略 下 讨论 识别 和 认证 。 需 要 注 











意 的 是 ， 








本 附录 中 的 大 部 分 讨论 将 侧重 于 关系 数据 库 系 统 中 的 自主 安全 性 。 许 多 原则 可 以 应 用 于 











其 他 系统 ， 如 对 象 数据 库 系 统 、 分 布 式 数据 库 系统 和 云 数据 管理 系统 。 
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外 云 计 算 开 发 与 安全 











在 设计 安全 系统 之 前 ， 必 须 回答 的 第 一 个 问题 是 ， 系 统 要 执行 的 安全 策略 是 什么 ? 
安全 策略 本 质 上 是 一 套 强制 执行 安全 性 的 规则 。 安 全 策略 包括 强制 安全 策略 和 自主 安全 
策略 。 强 制 安全 策略 是 “强制 性 ”的 策略 ， 不 应 被 包 视 。 自 主 安全 策略 是 由 管理 员 或 
负责 系统 运行 环境 的 任何 人 所 指定 的 策略 。 

策略 执行 ， 我 们 是 指 执行 策略 的 机 制 。 例 如 ， 早 在 20 世纪 70 年 代 ， 像 System R 和 
INGRES 等 关系 数据 库 系统 产品 ， 开 发 了 如 用 于 策略 执行 的 查询 修改 机 制 的 技术 (参见 
本 附录 参考 文献 [GRIF76] 和 [STON74]) 。 现 在 ， 查 询 语言 SQL 已 被 扩展 ， 以 指定 安 
全 策略 和 访问 控制 规则 。 最 近 ， 已 经 扩展 了 如 XML 和 RDF 的 语言 用 来 指定 安全 策略 
(参见 本 附录 参考 文献 [BERT02] 和 [ CARMO04]) 。 

在 C.2 节 中 ， 我 们 介绍 自主 安全 性 ， 包 括 数据 库 系 统 的 访问 控制 和 授权 模型 。 我 们 
还 要 讨论 基于 角色 的 访问 控制 系统 。 在 C. 3 节 中 ， 我 们 讨论 执行 自主 安全 性 的 方法 ， 包 
括 对 查询 修改 的 讨论 。 我 们 还 提供 各 种 商业 产品 的 概述 。 第 C. 4 节 总 结 本 附录 。 需 要 说 
明 的 是 ， 本 附录 中 的 论述 将 主要 概述 基于 关系 数据 库 系统 中 自主 安全 的 基础 知识 。 
C.2 安全 策略 

本 节 的 组 织 如 下 : 在 C.2.1 节 中 ， 我们 将 对 访问 控制 策略 进行 概述 。 管 理 策 略 将 在 
C.2.2 节 中 讨论 。 关 于 识别 和 认证 的 问题 将 在 C. 2. 3 节 中 进行 讨论 。C. 2. 4 节 将 讨论 审 
计数 据 库 管理 系统 。 作 为 安全 对 象 的 视图 将 在 C. 2. 5 节 中 讨论 。 图 C. 1 所 示 为 自主 安全 
策略 的 各 个 组 成 部 分 。 



















































































p Heg 识别 和 认证 策略 




















Alc.1 自主 安全 策略 











C.2.1 访问 控制 策略 

首先 检查 操作 系统 的 访问 控制 策略 。 这 里 的 要 点 是 可 以 允许 进程 访问 文件 吗 ? 访问 可 
以 是 进行 读 访 问 或 写 访问 。 写 访问 包括 允许 修改 、 添 加 或 删除 。 这 些 原则 被 移植 到 如 IN- 
GRES 和 System R 等 数据 库 系 统 中 。 从 那 时 起 ,我 们 已 经 研究 了 各 种 形式 的 访问 控制 策 
略 。 其 中 值得 注意 的 是 ， 在 几 个 商业 系统 中 ， 基 于 角色 的 访问 控制 策略 目前 已 经 得 以 实 
施 。 还 应 注意 到 ， 访 问 控制 策略 还 包括 强制 性 策略 。 图 C. 2 所 示 为 各 种 访问 控制 策略 。 
C.2.1.1 基于 授权 的 访问 控制 策略 

许多 访问 控制 策略 基于 授权 策略 。 基 本 上 这 意味 着 用 户 被 授予 对 数据 访问 的 权限 ， 
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EMEN 


访问 控制 安全 策略 

















肯定 和 否定 基于 角色 的 访问 诚信 、 隐 私 、 数 据 共 享 
授权 策略 控制 和 使 用 策略 和 协作 策略 











图 C.2 访问 控制 安全 策略 
是 基于 授权 规则 的 。 在 本 节 中 ， 我 们 将 讨论 各 种 授权 规则 。 需 要 注意 的 是 ， 授 权 策略 在 
Ferrari 和 Turaisingham 的 书 中 有 详细 的 讨论 ( 见 本 附录 参考 文献 [FERR00] ) 。 

肯定 授权 : 早期 的 系统 重点 关注 的 是 现在 被 称 为 肯定 授权 的 规则 。 这 里 ， 用 户 John 
被 授予 访问 关系 EMP 或 用 户 Jane 被 授予 访问 关系 DEPT。 这 些 就 是 关系 的 访问 控制 规 
则 。 还 可 以 授予 对 其 他 实体 (如 属性 和 元 组 ) 的 访问 权限 。 例 如 ，John 已 经 有 在 EMP 
相关 域 中 读 取 属 性 “工资 ”和 写 人 属性 “名 字 ” 的 权限 。 写 访问 可 以 包括 增加 、 修 改 
或 删除 。 
否定 授权 : 问题 是 如 果 没 有 指定 John 对 一 个 对 象 的 访问 权限 ， 这 是 否 意味 着 John 
无 法 访问 该 对 象 ? 在 某 些 系统 中 ,没有 指定 的 任何 授权 规则 被 隐 含 地 视 为 否定 授权 ， 而 
在 其 他 系统 中 ， 就 会 明确 指定 了 否定 授权 。 例 如 ， 我 们 可 以 执行 如 John 无 法 访问 关系 
EMP， 或 Jane 无 法 访问 关系 DEPT 的 规则 。 

冲突 消除 ， 当 我 们 有 规则 存在 冲突 的 时 候 ， 那 么 我 们 将 如 何 解 决 这 个 冲突 ?例如 ， 
我 们 可 以 有 一 个 规则 来 授予 John 对 关系 EMP 的 访问 权限 。 然 而 ， 我 们 也 可 以 有 另 一 个 
规则 ， 不 授予 John Æ EMP 中 读 取 工资 属性 的 权限 。 这 就 是 一 个 冲突 。 通 常 ， 系 统 执行 
最 小 特权 规则 ， 而 在 这 种 情况 下 ，John 可 以 访问 关系 EMP， 除 了 工资 值 。 

强 弱 授权 : 系统 还 强制 执行 强 弱 授权 。 在 强 授权 的 情况 下 ， 无 论 发 生 什么 冲突 ， 规 
则 都 成 立 。 在 弱 授 权 的 情况 下 ， 其 规则 在 发 生 冲 突 时 不 适用 。 例 如 ， 如 果 John 被 授予 
对 EMP 的 访问 权限 ， 并 且 它 是 一 个 强 授权 规则 ， 并 且 没 有 授予 给 John 访问 工资 属性 的 
规则 是 弱 授 权 ， 此 时 就 存在 一 个 冲突 。 而 这 意味 着 强 授权 将 成 立 。 
授权 规则 的 传播 : 这 里 的 问题 是 规则 将 如 何 传 播 ? 例如， 如果 John 已 经 有 读 取 关 
T EMP 关系 的 访问 权限 ， 那 么 它 是 否 意味 着 John 已 经 自动 有 读 取 EMP 关系 中 每 个 元 素 
的 访问 权限 ? 通常 情况 下 ， 除 非 我 们 有 一 个 规则 来 禁止 自动 传播 授权 规则 。 如 果 我 们 有 
一 个 规则 来 禁止 规则 自动 传播 ， 那 么 我 们 就 必须 明确 地 强制 执行 授权 规则 ， 该 规则 指定 
John 可 以 访问 的 对 象 。 

特殊 规则 : 在 强制 性 策略 工作 中 ， 我 们 广泛 探讨 了 内 容 和 基于 上 下 文 的 约束 的 实 
施 。 需 要 注意 的 是 ， 安 全 约束 本 质 上 是 安全 规则 。 内 容 和 基于 上 下 文 的 规则 是 根据 数据 
的 内 容 或 其 中 显示 数据 的 上 下 文 来 授予 访问 权限 的 规则 。 这 种 规则 也 可 以 用 于 自主 安全 
从 而 被 执行 。 例 如 ， 在 基于 内 容 的 约束 情况 下 ，John 只 能 在 DEPT D100 中 有 读 取 元 组 
的 访问 权限 。 在 上 下 文 或 基于 关联 的 约束 情况 下 ，John 没有 合 在 一 起 读 取 名 字 和 工资 
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的 访问 权限 ， 但 是 ， 他 可 以 单独 地 访问 名 字 和 工资 。 在 基于 事件 的 约束 情况 下 ， 执 行 选 
择 之 后 ，John 就 可 以 访问 EMP 关系 中 的 所 有 元 素 。 

规则 的 一 致 性 和 完整 性 : 这 里 的 一 个 挑战 是 确保 约束 的 一 致 性 和 完整 性 。 也 就 是 
说 ， 如 果 约 束 或 规则 不 一 致 ， 那 么 我 们 是 否 有 解决 冲突 的 办 法 呢 ? 我 们 如 何 确保 在 月 
的 访问 控制 规则 中 指定 所 有 实体 (如 属性 、 关 系 、 元 素 等 )? 实际 上 这 意味 着 ， 规 则 是 
完整 的 吗 ? 如 果 没 有 对 特定 用 户 或 一 类 用 户 指 定 肯 定 或 否定 授权 的 实体 ， 那 么 我 们 将 对 
其 假定 什么 呢 ? 

我 们 已 经 就 授权 规则 讨论 了 一 些 要 点 。 图 
C.3 给 出 了 一 些 例子 。 在 下 一 节 中 ， 我 们 将 讨 
论 一 个 非常 受 欢迎 的 访问 控制 策略 ， 这 就 是 基 
于 角色 的 访问 控制 ， 现 已 经 在 商业 系统 中 得 到 “| ”Joh 不 拥有 对 部 门 相关 域 的 写 访问 权限 
































T 


























授权 规则 
“Joh 拥 有 对 员工 关系 的 读 取 访问 权限 























了 实施 。 ,在 员工 关系 中 Jane 拥 有 对 名 字 值 的 

2.1. IEEE 读 取 访问 权限 

C.2.1.2 基于 角色 的 访问 控制 。 | jane 不 拥有 读 取 访问 部 门 关系 的 访问 权限 
基于 角色 的 访问 控制 已 经 成 为 最 受 欢迎 

的 访问 控制 方法 之 一 (参见 本 附录 参考 文献 图 c.3 ”授权 规则 


[SAND96 ]) 。 这 种 方法 已 在 包括 Trusted Ora- 
cle 在 内 的 商业 系统 中 实现 。 这 里 的 思想 是 根据 用 户 的 角色 和 职能 授予 用 户 访问 权限 。 

基于 角色 的 访问 控制 的 基本 思想 也 称 为 RBAC， 具 体 如 
T: 用 户 需要 根据 其 角色 访问 数据 。 例 如 ， 董 事 长 可 以 获得 经 理 拥有 部 门 经 理 
关于 他 /她 的 副 董 事 长 和 董事 会 成 员 的 信息 ， 而 财务 总 监 可 能 的 所 有 访问 权限 
会 获得 财务 信息 和 关于 向 他 报告 的 人 的 信息 。 董 事 可 以 获取 
关于 在 其 部 门 工作 的 人 员 的 信息 ， 而 人 力 资 源 总 监 将 获得 关 
于 公司 员工 个 人 资料 的 信息 。 基 本 上 基于 角色 的 访问 控制 是 
一 种 授权 策略 ， 它 取决 于 用 户 角 色 以 及 与 角色 相关 的 活动 。 

相关 文献 中 已 经 讨论 了 各 种 关于 角色 层次 结构 的 研究 成 






























































Cre LOU a pe 部 门 经 
果 。 还 有 一 个 名 为 SACMAT (访问 控制 模型 和 技术 研讨 会 ， | TERRE 


Symposium on Access Control Models and Technologies) 的 会 议 
系列 ， 它 从 基于 角色 的 访问 控制 研究 工作 中 演变 而 来 。 例 如 ， 
访问 如 何 得 到 传播 ?一 个 角色 能 否 包 含 另 一 个 角色 ?考虑 图 















































C.4 中 所 示 的 角色 层次 。 这 意味 着 如 果 我 们 允许 访问 层次 结 
构 中 的 节点 ， 那 么 访问 是 否 向 上 传播 ?也 就 是 说 ， 如 果 部 门 

经 理 有 权 访问 某 些 项 目 信息 ， 那 么 该 访问 是 否 传 播 到 父 节点 组 管理 者 
( 它 是 主管 节点 )? 如 果 部 门 负责 人 可 以 访问 他 /她 的 部 门 中 

的 员工 信息 ， 该 访问 是 否 传播 给 作为 角色 层次 结构 中 的 上 
级 的 部 门 经 理 ? 子 节点 会 发 生 什 么 ?也 就 是 说 ,访问 是 否 向 — CA 角色 层次 
下 传播 ? 例如 ， 如 果 部 门 经 理 可 以 访问 某 些 信息 ， 那 么 他 的 下 属 可 以 访问 该 信息 
否 存在 下 属 可 以 访问 部 门 经 理 没有 访问 的 数据 情况 ”如果 员工 必须 向 两 位 主管 报告 ， 一 
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位 是 他 的 部 门 经 理 ， 而 另 一 位 是 他 的 项 目 经 理 ， 该 怎么 办 ? 当 部 门 经 理 正 在 开展 项 目 ， 
且 还 要 向 他 的 项 目 负责 人 报告 ， 那 么 会 发 生 什 么 情况 ? 

我 们 已 经 对 关系 系统 、 对 象 系统 、 分 布 式 系统 以 及 现在 的 一 些 新 兴 技 术 ， 如 数据 仓 
库 、 知 识 管理 系统 、 语 义 Web、 电 子 商 务 系 统 和 数字 图 书馆 进行 了 基于 角色 访问 控制 的 
应 用 研究 。 此 外 ， 对 象 模型 已 用 于 表示 角色 和 活动 (可 以 参见 IFIP 数据 库 安全 会 议 系 
列 的 会 议 记 录 ) 。 这 是 一 个 将 持续 讨论 的 领域 ，ACM SACMAT 是 发 布 关 于 这 个 主题 的 高 
质量 论文 的 场所 。 

最 近 ，Sandhu 等 人 开发 了 另 一 种 类 似 的 访问 控制 模型 ， 这 就 是 使 用 控制 模型 ， 他 
称 之 为 UCON (参见 本 附录 参考 文献 [PARK04] 中 报道 的 工作 ) 。UCON 模型 试图 整合 
3 种 策略 ， 它 们 是 信任 管理 、 访 问 控制 和 权限 管理 。 这 个 想法 是 提供 对 使 用 对 象 的 控 
制 。 虽 然 这 些 想法 仍 处 于 初步 阶段 ， 但 我 们 对 这 种 模型 的 发 展 抱 有 很 大 的 希望 。 
C.2.2 管理 策略 

当 访 问 控制 策略 指定 用 户 对 数据 有 用 特定 的 访问 权限 时 ， 管 理 策 略 将 指定 谁 来 管理 
数据 。 管 理 职责 包括 保持 数据 流动 ， 确 保 在 更 新 数据 时 更 新 元 数据 ， 并 确保 从 故障 和 相 
关 活 动 中 恢复 。 

通常 ， 数 据 库 管理 员 (Database Administer, DBA) 负责 更 新 数据 ， 比 如 元 数据 、 
索引 和 访问 方法 ， 并 确保 访问 控制 规则 被 正确 执行 。 系 统 安全 员 (System Security Of- 
ficer, SSO) 也 具有 属于 自己 的 角色 。 也 就 是 说 ，DBA 和 SSO 可 以 分 担 他 们 之 间 的 职 
责 。 与 安全 相关 的 问题 可 能 是 SSO 的 责任 ， 而 与 数据 相关 的 问题 可 能 是 DBA 的 责任 。 
我 们 正在 考虑 一 些 其 他 的 管理 策略 (包括 分 配 管理 员 ) 。 通 常 所 有 者 可 以 控制 他 们 创建 
的 数据 ， 并 可 以 管理 数据 的 持续 时 间 。 在 某 些 情况 下 ， 系 统 拥 有 者 可 能 无 法 管理 数据 ， 
在 这 种 情况 下 ， 他 们 可 能 就 会 分 配 管理 员 来 管理 。 

分 布 式 环境 中 的 管理 策略 变 得 更 加 复杂 ， 特 别 是 在 Web 环境 中 。 例 如 ， 在 Web 环 
境 中 ， 分 发 文档 可 能 涉及 多 方 ， 包 括 所 有 者 、 发 布 者 和 请 求 数据 的 用 户 。 谁 拥有 数据 ， 
是 所 有 者 还 是 发 布 者 ? 一 旦 数据 离开 了 所 有 者 后 到 达 发 布 者 ， 发 布 者 是 否 能 够 控制 
数据 ? 

当 我 们 从 关系 数据 库 环境 迁移 到 分 布 式 且 可 能 是 网 络 环境 时 ， 会 有 许多 有 意义 的 问 
题 需要 来 回答 。 这 些 包 括 管 理 版 权 问题 、 数 据 质量 、 数 据 来 源 和 数据 管理 。 最 近 在 管理 
策略 会 议 上 出 现 了 许多 有 趣 的 论文 。 图 C. 5 所 示 为 各 种 管理 策略 。 







































































































































































管理 策略 
数据 所 有 权 和 授予 凭证 和 其 数据 库 恢复 和 
数据 传输 策略 他 安全 证 书 的 策略 审计 策略 


























图 C.5 管理 策略 
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C.2.3 识别 和 认证 

作为 我 们 对 自主 安全 讨论 中 的 一 部 分 ， 我们 还 要 讨论 识别 和 认证 。 通 过 识别 ， 我 们 
的 意思 是 用 户 必 须 用 自己 的 用 户 ID 和 密码 来 标识 自己 。 认 证 意味 着 系统 必须 将 用 户 ID 
与 密码 相 匹 配 ， 以 确保 这 确实 是 他 本 人 所 声明 的 。 取 决 于 用 户 的 角色 ， 他 /她 也 可 能 具 
有 多 个 身份 。 身 份 管理 最 近 引 起 了 广泛 关注 (参见 本 附录 参考 文献 [BERTO2]). 

基于 密码 的 方案 报 出 了 许多 问题 。 其 中 一 个 问题 是 黑客 可 以 进入 系统 并 获取 用 户 的 
密码 ， 然 后 伪装 成 用 户 。 在 集中 式 系统 中 ， 问 题 并 不 像 分 布 式 环境 那么 复杂 。 现 在 ， 随 
着 万 维 网 和 电子 商务 的 应 用 ， 当 黑客 伪装 成 合法 用 户 时 ， 金 融 机 构 将 可 能 会 损失 数 十 亿 
美元 。 

最 近 ， 正 在 应 用 生物 识别 技术 。 这 些 包 括 用 于 认证 用 户 的 面部 识别 和 语音 识别 技 
术 。 这 些 已 经 被 使 用 的 技术 进一步 提升 了 我 们 的 安全 性 。 随 着 人 脸 识 别 技术 的 进步 ， 我 
们 可 以 期 待 生物 识别 技术 的 广泛 使 用 。 
C.2.4 审计 数据 库 系统 

出 于 多 个 目的 ， 多 个 数据 需要 被 审计 。 例 如 ， 可 以 对 它们 进行 审计 ， 以 跟踪 所 提出 
的 查询 数量 、 所 做 更 新 的 次 数 、 执 行 的 事务 数 以 及 辅助 存储 器 被 访问 的 次 数 ， 以 便 系统 
可 以 被 设计 得 更 有 效率 。 为 了 安全 起 见 ， 数 据 库 也 可 以 被 审计 。 例 如 ， 是 否 通过 向 用 户 
发 布 信息 来 绕 过 任何 访问 控制 规则 ? 推理 问题 是 否 发 生 ? 是 否 有 侵犯 隐私 吗 ? 是 否 有 未 
经 授权 的 人 侵 ? 
攻 计 会 创建 一 个 跟踪 记录 ， 并 将 审计 数据 存储 在 数据 库 中 。 该 数据 库 可 能 被 挖掘 以 
检测 任何 异常 模式 或 行为 。 在 使 用 数据 挖掘 进行 审计 和 入 侵 检 测 方 面 已 经 做 了 很 多 工 
作 。 这 些 日 子 ， 审计 跟踪 分 析 在 网 络 上 的 电子 商务 交易 方面 尤其 重要 。 机 构 应 有 能 力 进 
行 分 析 、 确 定 信 用 卡 欺诈 和 身份 盗用 等 问题 。 
C.2.5 安全 视图 

为 了 实现 自主 安全 和 强制 安全 ， 视 图 作为 一 项 安全 机 制 已 经 被 大 量 研 究 。 例 如 ， 人 
们 可 能 不 想 授予 对 整个 关系 的 访问 。 特 别 是 ， 假 如 它 已 经 声明 25 个 属性 ， 如 医疗 保健 
记录 、 工 资 、 旅 行 信 息 、 个 人 数据 等 。 因 此 ，DBA 可 以 形成 视图 并 授予 访问 权限 。 同 
样 在 强制 性 安全 的 情况 下 ， 视 图 可 以 分 配 安全 级 别 ， 我 们 在 第 四 部 分 中 讨论 这 一 点 。 

视图 也 有 与 它们 相关 的 问题 ,它们 包括 视图 更 新 间 题 ( 见 本 附录 参考 文献 
[DATE90]) 。 也 就 是 说 ， 如 果 视 图 被 更 新 ， 那 么 我 们 就 需要 确保 完成 更 新 基础 关系 。 
因此 ， 如 果 用 户 John 更 新 了 一 个 视图 ,那么 他 无 法 访问 基本 相关 域 ， 那 么 基本 关系 是 
否 仍然 可 以 更 新 ? 也 就 是 说 ， 我 们 是 否 为 不 同 的 用 户 创建 不 同 的 视图 ， 然 后 DBA 将 视 
图 的 更 新 合并 为 基础 关系 的 更 新 ? 图 C.6 所 示 为 安全 性 的 视图 。 
C.3 策略 实施 及 相关 问题 

本 节 的 组 织 如 下 。C. 3.1 节 讨 论 用 于 安全 的 SQL 扩展。 在 C.3.2 节 ， 我 们 讨论 查询 
修改 。C. 3. 3 节 将 讨论 自主 安全 对 其 他 数据 库 功 能 的 影响 。C. 3.4 节 讨 论 安全 策略 的 可 
视 化 。C. 3.5 节 将 讨论 实施 自主 安全 策略 的 原型 和 产品 。 需 要 注意 的 是 ， 我 们 将 重点 关 
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EMP VI. VIEW EMP(D#=20) 
SS# Ename Salary SS# Ename Salary 
11 John 20 2 Paul 30k 
KF Paul 30 3 Mary 40k 
33 Mary 40 4 Jane 20k 
44 Jane 20k 1 Michelle 30k 
55 Bill 20k 
V2. VIEW EMP(D#=10) 
66 Larry 20 10 
n SS# Ename Salary 
11 Michelle 30 20 
1 John 20k 
规则 5 Bill 20k 
John 有 读 取 V1 的 权限 
6 Larry 20k 














John 有 对 V2 进 行 写 入 的 访问 





注 关 系数 据 库 系 统 。 图 C.7 所 示 为 执 
行 安全 策略 所 涉及 的 各 个 方面 ， 包 括 

















图 C.6 安全 视图 


规范 、 实 现 和 可 视 化 。 查询 修改 算法 


C.3.1 为 了 安全 的 SQL 扩展 





策略 实施 


本 节 讨论 策略 规范 。 虽 然 大 部 分 | ARER 


重点 将 放 在 针对 安全 策略 规范 的 SQL 
扩展 上 ， 但 我 们 还 将 讨论 一 些 新 兴 语 
言 。 应 注意 到 ，SQL 是 为 关系 系统 的 
数据 定义 和 数据 操作 而 开发 的 。 已 经 











定理 证 明 技术 是 否 违反 政策 


策略 的 一 致 性 和 完整 性 检查 








开发 了 各 种 版 本 的 SQL， 包 括 面 向 对 
象 的 SQL、 面 向 多 媒体 的 SQL 和 面向 
































图 C.7 策略 实施 


Web 的 SQL。 也 就 是 说 ，SQL 在 过 去 20 年 中 已 经 大 大 地 影响 了 数据 操作 和 数据 定义 





( 见 本 附录 参考 文献 [SQL3] ) 。 





正如 我 们 所 说 ，SQL 是 一 种 数据 定义 和 数据 操作 语言 。 在 数据 定义 期 间 可 以 指定 安 








全 策略 。SQL 具有 GRANT 和 REVOKE 结构 ， 用 于 指定 授权 和 撤销 对 用 户 的 访问 。 也 就 






































是 说 ， 如 果 用 户 John 已 经 有 读 取 关系 EMP 的 访问 权限 ， 那 么 就 可 以 使 











用 SQL 并 指定 类 


似 “GRANT JOHN EMP READ” 的 内 容 ， 如 果 要 撤销 访问 权限 ， 那 么 我 们 就 需要 一 些 类 
似 “REVOKE JOHN EMP READ” 的 内 容 。“SQL 也 扩展 了 更 复杂 的 约束 ， 如 授予 John 
对 相关 域 中 元 组 的 访问 权限 ， 并 授予 Jane 对 相关 域 中 元 素 的 访问 权限 。 


在 本 附录 参考 文献 [ THURS9] 中 ， 我 们 为 安全 性 声明 指定 了 SQL 扩 























明 是 为 了 多 层次 的 安全 。 我 们 可 以 使 用 类 似 的 推 到 








展 。 他 们 的 声 


来 指定 自主 安全 策略 。 例 如 ， 考 虑 到 
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1 云 计 算 开 发 与 安全 











John 没有 EMP 关系 中 名 字 和 工资 属性 组 合 的 读 访问 权限 情况 ， 但 他 可 以 单独 读 取 名 字 
和 工资 。 人 们 可 以 用 类 似 SQL 的 语言 来 指定 它 ， 如 下 所 示 。 
GRANT JOHN READ 


EMP.SALAR 





Y 


GRANT JOHN READ 


EMP.NAME 


NOT GRANT JOHN READ 
Together (EMP.NAME, EMP.SALARY) 

















如 果 我 们 要 授予 John 读 取 工资 低 于 30k 的 员工 的 访问 权限 ， 那 么 这 个 声明 指定 





如 下 。 


GRANT JOHN READ 


EMP 


Where EMP.SALARY « 30 K 


需要 注意 的 是 ， 我 们 指定 的 声明 
不 是 标准 声明 。 这 些 也 只 是 我 们 的 部 策略 规范 
分 想法 。 我 们 需要 探索 将 这 些 声明 纳 | 用 于 指定 安全 策略 的 SQL 扩展 
入 标准 的 方法 。 我 们 还 提出 了 SQL 扩 用 于 指定 策略 基于 规则 的 语言 
展 ， 用 于 基于 角色 的 访问 控制 。 实 际 








E, 像 Oracle 的 


的 产品 就 可 以 强制 实施 基于 角色 的 访 











wea 





逻辑 编程 语言 ， 如 Prolog 来 指定 策略 
Trusted 数据 库 这 样 : MES 














图 C.8 策略 规范 


问 控制 。 访 问 控制 规则 以 类 似 SQL 的 
语言 指定 。 也 应 注意 到 ， 还 有 许多 其 他 规范 语言 也 已 经 被 开发 出 来 ,包括 XML, RDF 


以 及 Web 和 语义 


Web 的 相关 语言 。 图 C. 8 所 示 为 安全 策略 包含 的 各 种 规范 。 


C.3.2 查询 修改 





查询 修改 在 力 
[STON74]) , H4 





考虑 用 户 Joh 


上 州 大 学 伯克利 分 校 的 INGRES 项 目 中 被 首次 提出 ( 见 本 附录 参考 文献 








思想 是 根据 约束 修改 查询 。 我 们 已 经 成 功 地 设计 并 实施 了 强制 性 安全 
的 查询 修改 (参见 本 附录 参考 文献 [DWYES7], [THUR87], [THUR93]), 。 然 而 ， 本 
节 中 的 大 部 分 讨论 将 是 基于 自主 安全 约束 的 查询 修改 。 我 们 用 一 些 例子 说 明 核 心 内 容 。 





























n 的 查询 操作 ， 以 从 EMP 中 检索 所 有 元 组 。 假 设 John 只 读 取 所 有 元 组 


中 工资 低 于 30k 的 员工 的 访问 权限 并 且 该 员工 不 在 安全 部 门 。 


那么 查询 


Select * from 上 MP 


查询 将 会 被 改 为 


Select * from EMP 
Where salary « 30 k 
And Dept is not Security 
我 们 假设 EMP 的 属性 是 姓名 字 、 工 资 、 年 龄 和 部 门 。 
这 里 ， 实 际 上 执行 的 是 查询 “where” 子 名 关联 这 个 关系 的 所 有 约束 。 我 们 也 可 以 
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有 跨越 多 个 关系 的 约束 。 例 如 ， 
Dept# 可 以 加 入 EMP 和 DEPT 两 
个 相关 域 。 然 后 查询 如 下 修改 : 
Select * from EMP 
Where EMP. Salary < 30 K 
And EMP.D# = DEPT. D# 





And DEPT. Name is not Security 


我 们 使 用 一 些 简单 的 示例 进 
行 查询 修改 。 详 细 的 算法 可 以 在 
本 附录 参考 文献 [DWYE87] 和 
[STON74] 中 找到 。 高 级 算法 如 














图 C. 9 所 示 。 
C.3.3 自主 安全 性 和 数据 库 
功能 


在 C.3.2 节 中 ,我们 讨论 了 
查询 修改 ， 实 际 上 是 在 查询 操作 
期 间 处 理 安全 约束 。 查 询 优化 也 
将 受到 安全 约束 的 影响 。 























查询 修改 算法 
输入 : 查询 、 安 全 约束 
输出 : 已 修改 的 查询 


对 于 与 查询 相关 的 约束 ， 请 通过 否定 修改 
查询 的 where 子 句 


例如 : 如 果 不 应 该 向 Jane 发 放 薪 水 ， 并且 如 果 Jane 从 雇员 
那里 请 求 信息 ， 则 修改 查询 从 而 从 属性 中 没有 工资 的 员工 


中 检索 信息 


重复 该 过 程 ， 直 到 处 理 所 有 相关 的 约束 


最 终 的 结果 是 修改 后 的 查询 





图 C.9 ”查询 修改 算法 











由 就 是 说 ， 一 旦 查询 被 修改 ， 就 必须 构建 查询 树 。 这 里 的 思想 
是 在 查询 树 中 推送 选择 和 投影 ， 稍 后 执行 联合 操作 。 


其 他 功能 也 受 安全 约束 的 影响 。 这 让 我 们 考虑 到 事务 管理 。Bertino 等 人 已 经 开发 了 























用 于 事务 管理 的 完整 性 约束 处 理 的 算法 (参见 本 附录 参考 文献 【BERT89] ) 。 我 们 已 经 
检测 了 他 们 在 事务 管理 中 强制 性 安全 约束 处 理 的 技术 。 这 些 技 术 可 以 适应 任意 安全 约 




















束 。 目 的 就 是 确保 在 事务 执行 期 间 不 会 违反 约束 。 
约束 可 能 会 在 元 数据 上 执行 。 例 如 ， 可 以 授予 和 撤销 用 户 对 元 数据 关系 的 访问 。 元 
数据 中 的 任意 安全 约束 都 能 够 以 与 处 理 数据 相同 的 方式 进行 处 理 。 


其 他 数据 库 功能 包括 存储 管理 














E 存储 管理 中 的 问题 包括 开发 适当 的 访问 方法 和 索引 


策略 。 我 们 需要 审查 安全 约束 对 存储 管理 功能 的 影响 。 也 就 是 说 ， 是 否 可 以 根据 约束 对 
关系 进行 划分 ， 并 以 这 样 的 方式 存储 它们 ， 以 便 能 够 有 效 地 访问 关系 ? 我 们 需要 为 数据 








库 系统 开发 安全 的 索引 技术 。 











通过 审计 数据 库 ， 来 确定 是 否 发 生 了 任何 安全 冲突 。 此 外 ,为 了 安全 起 见 ， 
用 视图 来 授予 个 人 访问 权限 。 所 以 我 们 需要 有 效 的 技术 进行 审计 以 及 视图 管理 。 

















在 本 节 中 ， 我 们 已 经 审查 了 安全 性 


理 、 事 务 处 理 、 
完整 性 约束 处 理 和 容错 计算 。 
C.3.4 策略 的 可 视 化 




















图 C. 10 所 示 为 安全 怕 












































已 经 使 








对 一 些 数据 库 中 主要 功能 的 影响 ， 包 括 查 询 管 
元 数据 管理 和 存储 管理 。 我 们 还 需要 调查 安全 性 对 其 他 功能 的 影响 ， 如 
E 对 数据 库 功 能 的 影响 。 





i} 





策略 实施 有 3 2:18. PERERA, HAERERE, AE RN n] N 
化 。 策 略 可 视 化 对 于 复杂 的 安全 策略 特别 有 用 。 
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L 去 计算 开发 与 安全 








许多 应 用 程序 都 需要 可 视 化 
工具 ,包括 地 理 空间 应 用 程序 以 
及 基于 Web 的 应 用 程序 ， 以 便 
用 户 能 够 更 好 地 了 解数 据 库 中 的 
数据 。 可 视 化 对 于 集成 安全 策略 
也 很 有 有 用。 例如， 如果 要 合并 来 
自 多 个 组 织 中 的 多 个 系统 ， 就 必 
须 将 其 策略 可 视 化 和 合并 ， 以 便 
管理 员 能 够 了 解 集成 策略 。 图 
C. 11 所 示 为 策略 集成 的 可 视 化 。 

策略 可 视 化 也 有 助 于 动态 策 
略 。 也 就 是 说 ， 当 政策 经 常 变化 
时 ， 可 视 化 的 效果 在 设计 安全 系 
统 方面 将 是 非常 有 用 的 。 在 我 们 
的 一 些 工 作 中 ， 我 们 使 用 图 形 结 
构 来 指定 约束 而 不 是 简单 的 规 
则 。 这 是 因为 图 形 使 规则 变 得 可 
视 化 。 此 外 ,策略 可 以 彼此 链 

































































数据 库 安全 功能 


查询 处 理 : 在 查询 处 理 过 程 中 强制 执行 访 
问 控制 规则 、 推 理 控制 ， 考 虑 查询 优化 的 安全 约束 


事务 管理 : 在 事务 执行 期 间 检查 安全 约束 是 否 得 到 满足 


存储 管理 : 开发 考虑 到 安全 约束 的 特殊 访问 方法 和 


索引 策略 


元 数据 管理 : 强制 实施 对 元 数据 的 访问 控制 ， 确 保 通 过 
发 布 元 数据 不 会 向 未 经 授权 的 个 人 公布 数据 


完整 性 管理 : 确保 在 执行 安全 性 的 同时 维护 数据 
的 完整 性 











图 C. 10 ”安全 性 在 数据 库 功能 上 的 影响 

















安全 违规 行为 





语义 数据 模型 来 表示 应 用 程序 、 安 全 约束 和 通过 推断 检测 


应 用 可 视 化 工具 来 检查 策略 的 一 致 性 


示例 : Jane 可 以 访问 关系 EMP 里 面 的 工资 值 ， 同 时 Jane 还 没有 
对 EMP 的 读 取 权 限 。 使 用 颜色 来 表示 Jane 能 和 不 能 访问 的 数据 。 
如 果 数 据 元 素 具 有 与 之 相关 联 的 两 种 颜色 ， 则 会 有 一 个 冲突 。 


使 用 超 媒体 系统 浏览 安全 策略 


策略 集成 的 可 视 化 














图 C.11 策略 集成 的 可 视 化 








接 ， 并 且 使 用 图 形 结构 可 以 分 析 各 种 链接 以 获得 策略 之 间 的 关系 。 








策略 可 视 化 领域 是 一 个 相对 比较 新 的 研究 领域 。 以 下 是 DARPA ER n] 9,167; iB 























的 一 些 研 究 项 目 。 这 个 领域 需要 做 大 量 工 作 ， 特 别 是 网 络 环境 下 的 策略 可 视 化 ， 因 为 组 
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织 之 间 需 要 协作 并 开展 电子 商务 。 策 略 可 视 化 对 于 国土 安全 应 用 也 很 重要 ， 各 个 机 构 必 
须 共同 合作 、 共 享 信息 ,但 是 也 要 保持 自主 性 。 
C.3.5 原型 和 产品 

我 们 现在 讨论 在 System R 
和 Oracle 中 实现 自主 安全 性 。 
需要 注意 到 ，System R 是 一 个 


原型 ， 而 Oracle 是 一 种 产品 。 


两 者 都 是 基于 关系 模型 。 有 几 
个 原型 和 产品 都 实现 了 自主 访 | 原型 : IBM 的 系统 RUC 产品 : TBM 的 DB2， 
问 控 制 其 中 此 如 图 C12 Berkeley 的 INGRES Oracle 的 Trusted Oracle 


所 示 。 图 C.12 原型 和 产品 

值得 注意 的 是 ， 随 着 技术 
的 进步 ， 原 型 和 产品 信息 将 不 断 变化 。 因 此 ， 在 许多 情况 下 ， 关 于 原型 和 产品 的 信息 可 
能 很 快 就 过 时 了 。 我 们 讨论 原型 和 产品 的 目的 是 解释 这 些 概念 。 关 于 原型 和 产品 的 最 新 
言 息 可 以 从 提供 商 处 获得 ， 也 可 以 从 网 络 获得 。 

System R 是 首先 引入 各 种 自主 安全 概念 的 系统 之 一 (参见 本 附录 参考 文献 
[GRIF76] )。 在 此 系统 中 ， 要 保护 的 对 象 由 表 和 视图 表示 。 主 体 可 以 对 安全 对 象 强制 执 
行 若干 特权 。 模 型 支持 的 特权 包括 选择 (选择 元 组 ) 、 更 新 (修改 元 组 )、 插 入 (添加 
元 组 ) 、 删 除 (删除 元 组 ) 和 撤销 表 (删除 表 )。 该 模型 还 支持 分 级 管理 设施 ， 主 体 可 
以 授予 它 所 拥有 的 权限 给 其 他 主体 。 该 模型 还 执行 递归 撤销 。 也 就 是 说 ， 当 主体 A 撤销 
对 表 B 的 授权 时 ， 则 B 反 过 来 将 对 其 先前 被 授权 访问 的 表 的 授权 进行 撤销 。 

System R 模型 已 经 在 许多 方面 得 到 了 扩展 。 第 一 ， 组 管理 ， 其 中 可 以 授权 和 撤销 用 
户 组 的 访问 权限 。 第 二 ， 分 布 式 数据 库 管 理 ， 对 于 作为 System R 的 分 布 式 版 本 System 
R*， 对 授权 进行 了 扩充 。 第 三 ， 否 定 授权 。 需 要 注意 的 是 ，System R 对 安全 性 的 大 量 
研究 已 经 移植 到 DB2 商业 产品 中 。 有 关 System R 授权 模型 及 其 扩展 的 详细 讨论 可 以 在 
本 附录 参考 文献 [FERROO] 中 找到 。 

在 Oracle 数据 库 服 务 器 中 ， 可 以 向 用 户 或 角色 授予 特权 。 角 色 是 分 层次 组 织 的。 一 
个 角色 获取 层次 结构 中 较 低 位 置 的 所 有 权限 。 用 户 可 以 被 授权 担任 多 个 角色 ,但 是 有 一 
个 限制 是 可 以 在 给 定时 间 启 用 或 禁用 角色 。 对 于 每 个 角色 ， 都 可 能 会 分 配 一 个 密码 ， 以 
确保 仅 授 予 对 该 角色 的 授权 使 用 权限 。 

权限 可 以 分 为 两 类 ， 系统 权限 和 客体 权限 。 系 统 权 限 允 许 主体 对 特定 类 型 中 客体 执行 
系统 范围 的 操作 。 系 统 权限 的 示例 是 删除 数据 库 中 任何 表 的 元 组 或 创建 集群 的 权限 。 客 体 
有 限 允 许 主体 对 特定 客体 执行 特定 的 操作 ， 这 里 的 示例 包括 从 特定 表格 中 插入 或 删除 元 
组 。 本 附录 参考 文献 [FERROO] 中 详细 讨论 了 其 他 问题 ， 如 级 联 权限 和 特权 撤销 。 


C.4 总 结 和 展望 
在 本 附录 中 ， 我 们 概述 了 数据 库 系 统 中 的 自主 安全 策略 。 在 本 附录 的 一 开始 ， 我 们 





























一 些 原 型 和 产品 






































































































































































































































外 云 计 算 开 发 与 安全 


讨论 访问 控制 策略 ， 包 括 授权 策略 和 基于 角色 的 访问 控制 。 然 后 ， 我 们 讨论 了 管理 策 





略 。 我 们 简单 地 讨论 了 识别 和 认证 。 接 下 来 ， 我 们 讨论 了 审计 问题 以 及 安全 视图 














, B 





次 ,我们 讨论 了 策略 执行 。 策 略 执行 中 的 重大 问题 是 策略 规范 、 策 略 实施 和 策略 可 视 
化 。 我 们 还 讨论 了 用 于 指定 策略 的 SQL 扩展 ， 并 对 查询 修改 进行 了 概述 。 我 们 还 介绍 
了 如 何 将 策略 可 视 化 用 于 集成 多 个 策略 。 最 后 ， 我 们 讨论 了 一 些 实现 自主 安全 性 的 原型 














和 产品 。 我 们 主要 关注 的 是 关系 数据 库 系统 。 











我 们 还 有 很 多 工作 要 做 。 例 如 ， 对 于 像 数 字 图 书馆 和 语义 Web 等 新 兴 技术 ， 基 于 
角色 的 访问 控制 仍然 需要 做 大 量 工 作 。 我 们 需要 管理 策略 来 管理 Web 环境 中 的 多 方 交 
易 。 我 们 还 需要 用 于 认证 用 户 的 生物 识别 技术 。 数 字 身 份 正 在 成 为 一 个 重要 的 研究 领 





























域 ， 特 别 是 云 系 统 。 








安全 策略 的 实施 是 一 个 随 着 新 技术 的 出 现 ， 而 不 断 发 展 的 话题 。 我 们 已 经 从 关系 到 
对 象 、 多 媒体 、 网 络 发 展 到 云 数据 管理 系统 。 每 个 系统 都 具有 可 以 并 人 安全 策略 的 一 些 
独特 功能 。 各 个 系统 的 实施 策略 将 继续 是 一 个 重要 的 研究 焦点 。 我 们 还 需要 对 政策 的 一 





致 性 和 完整 性 进行 研究 。 策 略 可 视 化 可 能 对 此 研究 提供 很 大 帮助 。 








云 中 的 策略 管理 是 一 个 活路 的 研究 领域 。 我 们 的 工作 包括 访问 控制 ， 以 及 云 中 的 基 
于 策略 的 信息 共享 。 在 本 书 中 也 讨论 了 我 们 在 云 中 安全 策略 实施 方面 开发 的 实验 系统 。 
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附录 D 信息 共享 保障 的 生命 周期 


D.1 概述 


本 章 介绍 我 们 保障 信息 共享 ( Assured Information Sharing, AIS) 的 方法 。 该 研究 正 
在 由 空军 科学 研究 室 (Air Force Office of Scientific Research , AFOSR) 资助 的 MURI ( 
大 学 研究 计划 ，Multi - University Research Initiative) 项 目下 进行 。 我 们 项 目的 主要 目标 
是 定义 、 设 计 和 开发 出 一 个 信息 共享 保障 生命 周期 (Assured Information - Sharing Life 
cycle, AISL) 系统 ， 从 而 实现 国防 部 信息 共享 价值 链 。 在 本 附录 中 ， 我 们 将 讲述 国防 
部 面临 的 问题 和 我 们 开发 AISL 系统 的 解决 方案 。 

司 防 部 对 AIS 的 愿景 是 “通过 在 信息 环境 中 具有 可 操作 性 的 敏捷 企业 ， 提 供 信息 的 
力量 ， 来 确保 任务 的 成 功 ”。 在 目前 的 AIS 项 目 中 ， 我 们 的 目标 是 通过 定义 AIS 生命 周 
期 和 开发 框架 来 实现 这 一 愿景 。 

我 们 项 目的 主要 目标 是 定义 、 设 计 和 开发 出 一 个 实现 国防 部 信息 共享 价值 链 的 
AISL。 为 了 实现 这 一 目标 ， 我 们 正在 开发 以 下 的 工具 和 技术 : 中 一 个 综合 的 策略 框架 ， 
通过 各 种 策略 (包括 机 密 性 、 绩 效 制 和 信任 ) 来 指定 和 推理 ， 以 提供 支持 ; 四 基于 事 
件 的 安全 将 支持 AIS 服务 的 SOA; @@ 提 供 实施 面向 生命 周期 的 应 用 和 管理 策略 所 需 的 服 
务 中 的 安全 基础 设施 ; 由 利用 社交 网 络 建立 信息 流动 的 技术 ; 名 确保 信息 集成 、 分 析 和 
质量 的 方法 ; @@ 基 于 行为 来 激励 信息 共享 保障 的 工具 。 

本 附录 的 组 织 结构 如 下 : 在 D.2 节 ， 我 们 讨论 存在 的 问题 ， 在 D.3 WP, RIT 
W AIL 框架 ,第 D. 4 节 我 们 将 讨论 信息 共享 的 激励 措施 ; 在 D.5 节 中 总 结 本 附录 内 
容 。 目 前 ，6 所 大 学 正在 参与 这 个 项 目 ， 他 们 是 马里 兰 大 学 、 巴 尔 的 摩 计 数 、 普 渡 大 
学 、UTD、 伊 利 诺 伊 大 学 香槟 分 校 、 密 软 根 大 学 和 得 克 院 斯 大 学 圣安东尼奥 分 校 。 


D.2 问题 


为 了 打 赢 全 球 反 疏 战 争 ， 国 防 部 、 联 邦 机 构 、 联 盟 成 员 和 首要 响应 者 等 必须 主动 共 

享 信息 和 做 出 有 效 决定 。 但 是 ,在 这 样 做 出 行动 的 时 候 ， 人 们 必须 保护 敏感 信息 的 机 密 

性 ， 并 适当 地 尊重 个 人 的 隐私 。 传 统 的 安全 策略 通常 基于 “需要 获知 ”的 概念 ， 并 且 

被 预先 定义 和 经 常 由 僵化 的 规范 所 划分 ， 其 中 主体 和 角色 被 授权 访问 哪些 信息 。9/11 委 
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1 云 计 算 开 发 与 安全 








员 会 ( 见 本 附录 参考 文献 [ MARK03]) 给 出 的 建议 之 一 就 是 要 从 传统 的 角度 ， 转 向 强 
调 “ 需 要 分 享 ”的 方法 。 我 们 针对 上 述 问题 的 研究 将 以 下 面 信息 为 指导 : 中 国防 部 的 
言 息 共享 战略 ; @ 与 国防 部 和 其 他 政府 机 构 的 信息 共享 需求 相关 的 情景 。 信 息 包括 上 下 
文 数据 、 元 数据 ， 以 及 架构 、 资 源 、 策 略 、 流 程 和 策略 的 描述 。 

2007 年 5 月 ， 国 防 部 首席 信息 官 发 表 了 一 份 阐述 国防 部 信息 共享 战略 的 文件 (DoD 
2007 ) 。 信 息 共享 的 愿景 是 “通过 具有 可 操作 性 的 敏捷 企业 在 信息 环境 中 ， 发 展 信息 的 
力量 ， 来 确保 任务 成 功 ”。 为 了 实现 这 一 愿景 ， 国 防 部 制定 了 以 下 四 个 目标 : “促进 、 
鼓励 和 激励 共享 ”;“ 实 现 企业 扩展 ”;“ 加 强 敏 捷 性 ， 以 适应 意料 之 外 的 伙伴 和 事件 ”; 
“确保 组 织 之 间 的 信任 ”。 国 防 部 表示 ， 通 过 在 工作 中 执行 的 5 个 实施 策略 ， 将 实现 4 个 
信息 共享 目标 。 

我 们 的 初始 方案 与 分 布 式 公共 地 面 系统 ( Distributed Common Ground System, 
DCGS) 有 关 。 为 了 确保 联合 情报 、 监 视 和 侦察 的 横向 集成 (Intelligence, Surveillance, 
and Reconnaissance, ISR) ， 用 于 改善 临界 时 间 目 标的 传感器 平台 ， 国 防 部 正在 以 基于 网 
络 为 中 心 ， 企 业 SOA DCGS 作为 全 球 情 报 共 享 网 络 进行 开发 。 虽 然 空 军 正 在 开发 
DCCS (雷神 公司 作为 主 承 包 商 ) ， 但 海军 正在 开发 其 名 为 DCGS -N 的 版 本 ， 而 陆军 也 
正在 开发 其 名 为 DCGS -A 的 版 本 。 三 个 组 织 必须 通过 DCGS， 以 及 与 外 国情 报 部 门 共 
享 战斗 行动 信息 (NRC 2006) 。 我 们 将 展示 我 们 的 研究 如 何 能 够 实现 和 增强 这 一 系统 ， 
并 且 还 可 以 通过 我 们 的 合作 者 来 探索 其 他 的 情景 。 我 们 的 工作 细节 在 本 附录 参考 文献 
[ISI09] 中 给 出 。 


D.3 信息 共享 保障 的 生命 周期 


AISL 由 图 D.1 所 示 的 3 个 主要 阶段 组 成 : 
OB RIA E ; Offi 获取 、 发 布 和 整合 
国信 息 使 用 和 控制 。 这 些 阶段 将 实现 ( DoD 
2007) 信息 共享 的 价值 链 。 在 发 现 阶段 ， 各 方 
宣传 他 们 所 拥有 的 信息 ， 并 搜索 相关 信息 。 信 
息 环境 中 的 各 方 可 能 扮演 两 个 主要 角色 : 信息 
提供 者 和 信息 获得 者 。 信 息 发 现 和 广告 涉及 几 
个 问题 : 确定 信息 是 什么 和 宣传 对 象 是 谁 ? xx 
持 广 告 有 可 选择 性 、 确 保 机 密 性 和 检验 诚信 ， 
以 及 确定 信息 共享 的 激励 措施 。 信 息 获取 、 发 容量 
布 和 整合 涉及 几 个 问题 ; 确定 要 发 布 的 信息 和 

向 谁 发 送信 息 ， 验 证 信息 的 需求 ， 评 估 获 取 / 发 图 D. 1 ASL (信息 共享 保障 的 生命 周期 ， 
布 信息 MARMAR MARMAT a Ar O A EE 
取 和 发 布 所 产生 的 义务 。 在 使 用 和 控制 阶段 ， PON INS 
一 个 关键 的 要 求 是 信息 提供 者 保持 “确认 信息 

在 哪里 、 怎 么 样 被 使 用 的 ”( DoD 2007) 。 这 也 需要 解决 几 个 问题 : AU fay eS 
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已 经 发 布 





DEMENS 











的 信息 的 使 用 、 联 合 管理 、 访 问 控制 和 绩效 ， 调 查 机 密 性 和 完整 性 违规 ， 以 及 评 佑 其 使 
用 其 所 带 来 的 益处 。 

AISL 是 体现 信息 共享 保障 价值 链 概念 的 具体 实施 方案 ， 它 提供 了 一 套 服 务 、 工 具 
和 过 程 ， 能 够 共同 地 安全 集成 信息 源 的 正确 组 合 ， 并 且 也 能 够 立即 安全 地 通信 、 协 调和 
适当 回应 现状 。 因 此 ，AISL 具有 高 度 动态 性 ， 可 以 对 情况 进行 快速 反应 ， 同 时 提供 安 
全 保证 。 针 对 不 同类 型 的 信息 ， 以 上 3 个 阶段 被 若干 过 程 执行 多 次 。 岁 D. 2 所 示 为 实现 
AISL 的 各 种 模块 。 组 成 模块 包括 : 支持 Web 服务 的 策略 、 基 于 语义 事件 的 面向 服务 的 
安全 架构 (SSE - SOA) ， 以 及 文 持 执行 策略 的 安全 基础 设施 。 高 级 网 络 服务 包括 信息 
管理 安全 、 知 识 管理 安全 、 社 交 网 络 安全 、 激 励 管理 安全 和 联合 管理 安全 。 


联邦 管理 
服务 安全 


核心 : 策略 SSE-SOA 
安全 基础 设施 知识 管理 


激励 管理 
服务 安全 


图 D.2 服务 安全 (信息 共享 保障 的 生命 周期 ，IEEE 智能 与 安全 信息 会 议论 文集 ， 
达拉斯 ， 得 克 萨 斯 州 . © (2009) IEEE. ) 























































































社会 网 络 管理 


服务 安全 服务 安全 



































我 们 的 目标 是 为 决策 者 提供 正确 的 信息 ， 以 便 他 /她 可 以 在 不 确定 和 意料 之 外 的 情 
况 下 做 出 决定 。 我 们 正在 开发 用 于 评估 和 /或 快速 重新 验证 用 于 决策 信息 的 工具 和 技术 ， 
并 通过 使 用 问 责 流 程 来 强化 关于 信息 的 来 源 的 管理 。 通 过 使 用 我 们 的 工具 ， 决 策 者 可 以 
确定 信息 的 来 源 。 这 种 意图 可 能 会 促使 对 信息 需要 进行 更 多 的 快速 验证 ， 从 而 快速 搜索 
其 他 可 以 确认 或 初始 无 效 的 信息 。AISL 是 动态 的 ， 在 各 个 阶段 ， 都 需要 信息 质量 和 来 
源 技术 来 支持 。 


D4 激励 和 信息 共享 


AISL 项 目 为 制定 信息 共享 的 策略 、 模 式 和 技术 做 出 了 许多 贡献 。 我 们 在 这 个 项 目 

中 所 做 的 独特 贡献 之 一 就 是 基于 激励 的 信息 共享 。 
我 们 已 经 建立 了 机 制 ， 激 励 个 人 /组 织 进 行 信息 共享 。 一旦 建立 了 这 样 的 机 制 ， 我 
们 可 以 使 用 契约 理论 中 的 概念 来 确定 适当 的 奖励 。 例 如 ， 排 名 ， 或 者 在 某 些 情况 下 ， 外 
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) 去 计算 开发 与 安全 



































国 合作 伙伴 给 出 的 货币 利益 。 首 先 ， 我 们 探讨 如 何 利 用 分 布 式 安全 审计 日 志 ， 在 可 靠 的 


合作 伙伴 之 间 ， 对 各 个 组 织 进行 排名 。 为 了 处 理 不 可 能 进行 审计 的 情况 ， 同 时 也 为 了 从 
合作 伙伴 中 提取 信息 ， 我 们 制定 了 游戏 理论 策略 。 我 们 根据 经 济 理论 进行 研究 ， 将 相关 








结果 集成 到 激励 性 的 AIS。 
































将 现实 世界 中 的 复杂 信息 共享 问题 进行 建 模 ， 转 化 为 形式 分 析 的 过 程 中 存在 风险 ， 



























































超过 预 设 阔 值 时 ， 则 发 送 和 否定 警报 。 系 统 整体 表现 的 质量 最 终 将 取决 于 人 类 刀 








是 不 切实 际 的 假设 。 通 过 借鉴 心理 学 和 相关 补充 决策 科学 的 见解 ,我们 考虑 了 更 广泛 的 
行为 假设 ， 旨 在 改善 系统 与 其 预期 用 户 之 间 的 接口 。 系 统 的 目的 是 整合 众多 信 ， 
并 提供 各 种 定量 输出 ， 以 帮助 提高 监控 系统 的 性 能 。 最 重要 的 是 ， 当 信息 被 滥用 


的 概率 
r fap fi A 





它 。 最 近 几 十 年 出 现 的 行为 经 济 学 ， 从 心理 学 借鉴 了 如 何 建立 具有 更 多 现实 主义 经 验 的 























模型 ， 基 础 假设 是 决策 者 得 出 推论 和 采取 行动 的 方式 。 我 们 扩大 了 对 系统 激励 信息 








共享 








部 分 的 形式 分 析 ， 更 广泛 地 考虑 了 动因 ， 包 括 人 际 比 较 ， 它 能 作为 系统 地 塑造 行为 结果 
的 因素 ， 因 此 影响 信息 共享 系统 的 性 能 。 我 们 的 结果 报告 在 本 附录 参考 文献 [NIX12 ] 























中 报道 。 
D5 总 结 和 展望 




















该 项 目 做 出 了 几 项 新 的 贡献 ， 并 已 在 本 附录 参考 文献 [ASL] 中 报道 。 这 些 包 括 























安全 模型 、 框 架 、 架 构 、 信 息 管 理 、 社 交 网 络 和 对 信息 共享 的 激励 。 

















在 我 们 的 工作 中 ， 我 们 将 研究 成 果 集成 到 云 中 ， 开 发 基于 云 的 AIS 系统 。 第 七 部 分 
对 系统 做 了 报告 。 除 了 增强 我 们 的 系统 ， 我 们 计划 将 与 DARPA (国防 高 级 研究 计划 局 ， 
Defense Advanced Research projects Organization ) BK IARPA (情报 高 级 研究 计划 局 Intel- 
ligence Advanced Research Projects Activity) 来 共同 讨论 我 们 的 项 目 ， 以 开发 AIS 的 现实 














操作 系统 。 
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